※注意 この記事はembulk-output-bigquery v0.2.x以前に基づいて書かれています。 v0.3.0で大幅な変更が加わっているためv0.2.xで使っていたconfig.ymlはそのままでは使えません。 主な変更点は * JavaプラグインからJRubyベースのプラグインに変わりました。それまでよりpull-requestは送りやすくなったと思うので早く送るん(ry * fo...

続きを見る

最近embulk-input-gcs、embulk-output-bigqueryというEmbulkのプラグインを作ったんですが、Embulk本体のコードよりGoogleのAPI/Google APIs Client Library for Javaの利用でハマりました。 AWSのようにSDK落としてくればサクッと開発できると思ってたんですがそんなに甘くなかった。。 GCP(Google Cl...

続きを見る

並列データ転送ツールEmbulkのプラグインであるembulk-input-gcsを作りました。 EmbulkのインプットソースとしてGoogle Cloud Storage(GCS)上のバケット/ファイルを指定できるものです。 embulk-output-gcsの方が断然需要が高いと思いますが、自分はembulk-output-bigqueryを作っている最中にいろんな場所から同じデータでテス...

続きを見る

embulk-input-gcsというGoogle Cloud Platform(以下GCP)のGoogle Cloud Storage(以下GCS)からデータをバルクインポートできるEmbulkのプラグインを書いたんですが、GCSのAPIを利用するために必要な手順になります。 APIを利用するために必要な情報 GCPはアカウントの種類が複数あり、認証方法もOAuth2.0等複数の認証方法が存...

続きを見る

ページの先頭へ