【IT技術】Bigqueryにテキストデータをロード/インポート(bqload)

Googleクラウド環境(GCP)を使った分析といえばBigquery

分析前にまずはデータ投入ということで実際に手元のテキストファイルをBigqueryにインポートしてみます。
★テストデータ→http://yajiken.tech/testdata_utf8.csv

手順としてはいくつかあります
1)管理画面
2)CloudSDKを使ってコンソール実行

管理画面のほうが直観的で簡単ではあるのですが、サイズが大きいとうまくいかないのでおススメは
管理画面で空テーブルを作成して、コンソール実行でデータ追加です

まず管理画面(https://bigquery.cloud.google.com)のココからテーブル新規作成

上のラジオの「create empty table」を選択し、テーブル名やカラム定義をしていきます。

まとめて定義することも可能です

無事空のテーブルができました

次にGCS(GoogleCloudStorage)へファイルをアップロードします
注意すべき点としては、日本語を使っている場合は文字コードを「UTF8」にすることです

下記のようにアップロードしました

さああとはコンソールからロードコマンド(bqload)を実行するだけです
GCE(GoogleComputeEngine)のGoogle Cloud Shellを使いましょう

初回起動時は、接続先のGCPプロジェクトを聞かれるので選択しましょう
「bq ls」のようにBigquery実行コマンドを何か入力するとこのモードになります

プロジェクトIDが分からない人は以下のIDを確認しましょう
(プロジェクト名=下図だとdemoをクリック)

「bq ls」でデータセットが参照できれば疎通OK
あとはデータロードコマンドを実行しましょう

今回の例だと以下でいけます

bq load –source_format=CSV testdataset.testcsv gs://ttstorage/data/testdata_utf8.csv

最後に管理画面からクエリを発行して確認です。
データが無事入っています