tBigQueryOutputの標準プロパティ - Cloud - 8.0

Google BigQuery

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
データガバナンス > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
Last publication date
2024-02-28

これらのプロパティは標準ジョブのフレームワークで実行されているtBigQueryOutputを設定するために使われます。

標準tBigQueryOutputコンポーネントは、ビッグデータファミリーに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。変更を加えると、スキーマは自動的に組み込みになります。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

このコンポーネントは、ダイナミックスキーマ機能の利点を備えているので、ソースファイルから不明なカラムを取得したり、各カラムを個別にマッピングしなくてもソースからカラムを一括してコピーしたりできます。ダイナミックスキーマの詳細は、ダイナミックスキーマをご覧ください。

ダイナミックスキーマ機能は、テーブルの不明なカラムを取得するしくみになっており、その他の目的には使用しないことをお勧めします。テーブルの作成には推奨しません。

 
  • BigQueryのレコードタイプはサポートされていません。
  • DescriptionカラムやModeカラムなど、テーブルメタデータのカラムは取得できません。
  • BigQueryシステムからのタイムスタンプデータは、文字列データにフォーマットされます。
  • BigQueryの数値データはBigDecimalに変換されます。

[Property type] (プロパティタイプ)

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Local filename] (ローカルファイル名)

受信したデータを書き込むファイルのパスを参照するか入力します。

[Append] (追加)

このチェックボックスをオンにすると、[Local filename] (ローカルファイル名) で指定したファイルの既存のデータに行が追加されます。

[Authentication mode] (認証モード) プロジェクトの認証に使用されるモードを選択します。
  • [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使って認証します。このモードを選択した場合、定義されるパラメーターは[Service account credentials file] (サービスアカウント認証ファイル)です。
  • [Application Default Credentials] (アプリケーションのデフォルト認証情報): アプリケーションのデフォルト認証情報を使って認証します。このモードを選択した場合、アプリケーション環境に基づいて認証情報が自動的に検索されるので、追加のパラメーターを定義する必要はありません。
  • OAuth 2.0: OAuth認証情報を使って認証します。このモードを選択した場合、定義されるパラメーターは、[Client ID] (クライアントID)[Client secret] (クライアントシークレット)[Authorization code] (認証コード)です。
  • [OAuth Access Token] (OAuth アクセストークン): OAuthアクセストークンを使用して認証します。このモードを選択した場合、定義されるパラメーターは[OAuth Access Token] (OAuthアクセストークン)です。

Google Cloudの認証プロセスに関する詳細は、Google Cloudのドキュメンテーションをご参照ください。

[Service account credentials file] (サービスアカウント認証情報ファイル) 使用するサービスアカウント用に作成された認証情報ファイルへのパスを入力します。このファイルはTalendジョブが実際に起動および実行されるコンピューターに保管されている必要があります。

これらのプロパティは、サービスアカウントを使って認証する場合のみ利用可能です。

[Client ID] (クライアントID)および[Client Secret] (クライアントシークレット)

クライアントIDおよびクライアントシークレットを貼り付けます。両方とも使用するGoogle BigQueryサービスおよびCloud StorageサービスをホスティングしているプロジェクトのAPI Accessタブビューで作成され、および表示可能になっています。

クライアントシークレットを入力するには、クライアントシークレットフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスでクライアントシークレットを二重引用符の間に入力し、OKをクリックして設定を保存します。

これらのプロパティは、OAuth 2.0を使って認証する場合のみ利用可能です。

[OAuth Access Token] (OAuthアクセストークン) アクセストークンを入力します。

トークンのライフタイムは1時間です。コンポーネントはトークン更新操作を行いませんが、1時間という制限時間を超えても操作できるよう、新しいアクセストークンをフェッチします。

これらのプロパティは、[OAuth Access Token] (OAuthアクセストークン)を使って認証する場合のみ利用可能です。

[Project ID] (プロジェクトID)

使用する必要があるGoogle BigQueryサービスをホスティングしているプロジェクトのIDを貼り付けます。

プロジェクトのIDは、Google API ConsoleのURL、またはBigQuery Browser Toolでプロジェクト名にマウスを重ねると表示されます。

[Authorization code] (認証コード)

構築中のアクセスに対してGoogleにより提供される認証コードを貼り付けます。

認証コードを取得するには、このコンポーネントを使用してジョブを実行する必要があります。このジョブが実行を一時停止してURLアドレスを出力する場合は、このアドレスに移動して、表示されている認証コードをコピーします。

[Dataset] (データセット)

データを転送する転送先のデータセットの名前を入力します。

[Table] (テーブル)

データを転送する転送先のテーブルの名前を入力します。

このテーブルが存在しない場合は、[Create the table if it doesn't exist] (テーブルが存在しない場合は作成)チェックボックスをオンにします。

[Action on data] (データでのアクション)

ターゲットテーブルにデータを転送する時に、ドロップダウンリストから実行するアクションを選択します。アクションは以下のようになります:

  • [Truncate] (切り捨て): テーブルの内容を空にし、転送されたデータで再作成します。

  • [Append] (追加): テーブルの既存のデータに行を追加します。

  • [Empty] (空): 空のテーブルに入力します。

[Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるタイプを選択します。
  • [Service account] (サービスアカウント): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Service account key] (サービスアカウントキー)になります。
  • [Application Default Credentials] (アプリケーションのデフォルト認証情報): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Application Default Credentials] (アプリケー ションのデフォルト認証情報)となります。
  • [OAuth Access Token] (OAuthアクセストークン): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[OAuth Access Token] (OAuthアクセストークン)になります。

デフォルトでは、[Service account] (サービスアカウント)が選択されています。[Credential type] (認証情報の種類)フィールドは、[Bulk file already exists in Google storage] (バルクファイルがGoogle Storageに既に存在する)チェックボックスがオフになっている場合のみ利用できます。

[Service account key] (サービスアカウントキー)

サービスアカウントキーフィールドの横にある[...]ボタンをクリックして、サービスアカウントキーを含むJSONファイルを参照します。

これらのプロパティは、サービスアカウントを使って認証する場合のみ利用可能です。

[Access key] (アクセスキー)および[Secret key] (シークレットキー)

Google Cloud StorageにリクエストするためにGoogleから取得した認証情報を貼り付けます。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

これらのキーは、プロジェクトの[Google Cloud Storage]タブの[Interoperable Access]タブビューで参照できます。

[OAuth Access Token] (OAuthアクセストークン) アクセストークンを入力します。

トークンのライフタイムは1時間です。コンポーネントはトークン更新操作を行いませんが、1時間という制限時間を超えても操作できるよう、新しいアクセストークンをフェッチします。

これらのプロパティは、[OAuth Access Token] (OAuthアクセストークン)を使って認証する場合のみ利用可能です。

[Bucket] (バケット)

Google BigQueryに転送するデータを保持するGoogle Cloud Storageコンテナーのバケットの名前を入力します。

ファイル

Google Cloud Storageに保管され、Google BigQueryに転送されるデータのディレクトリーを入力します。このデータは、バケットルートの直下に保管する必要があります。たとえば、gs://my_bucket/my_file.csvと入力します。

データがGoogle Cloud Storageにない場合、このディレクトリーはデータがGoogle BigQueryに転送する途中のデスティネーションとして使用されます。

このファイル名は、[Local filename] (ローカルファイル名)フィールドで指定したファイル名と同一にする必要があることにご注意ください。

ヘッダー

転送されたデータのヘッダーを無視するように値をセットします。たとえば、0を入力すると、ヘッダー行を無視する設定になり、最初の行にヘッダーが含まれるデータの場合は1をセットします。

Die on error (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー時に行をスキップし、エラーの発生していない行の処理が完了されます。デフォルトでは選択されていません。

詳細設定

[token properties File Name] (トークンプロパティファイル名)

使用する必要がある更新トークンファイルのパスを入力するか、参照します。

Google BigQueryから取得した[Authorization code] (認証コード)を使用する最初のジョブ実行の場合、このフィールドの値は、作成し使用する更新トークンファイルのディレクトリーと名前になります。トークンファイルが作成済みで、再利用する必要がある場合、このフィールドにディレクトリーとファイル名を指定する必要があります。

トークンファイル名のみを入力した場合、 Talend Studioにより、トークンファイルのディレクトリーがTalend Studioフォルダーのルートであると見なされます。

更新トークンの詳細は、Google BigQueryのマニュアルをご覧ください。

フィールド区切り

転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。

[Drop table if exists] (存在する場合はテーブルをドロップ)

このテーブルが既に存在する場合は、[Drop table if exists] (存在する場合はテーブルをドロップ)チェックボックスをオンにして、[Table] (テーブル)フィールドで指定したテーブルを削除します。

[Create directory if not exists] (ディレクトリーがない場合はディレクトリーを作成)

このチェックボックスをオンにすると、Google Cloud Storageの[File] (ファイル)で定義されたディレクトリーが存在しない場合にディレクトリーが作成されます。

フラッシュバッファーサイズのカスタマイズ

この行数を超えるとメモリが解放されます。

[Check disk space] (ディスク容量の確認)

このチェックボックスをオンにすると、実行中にディスクに空きがない場合に例外が返されます。

[Encoding] (エンコーディング)

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。このフィールドはデータベースデータ処理の必須フィールドです。サポートされるエンコーディングは、使用しているJVMに応じて異なります。詳細は、https://docs.oracle.comをご覧ください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

Global Variables

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数は、[Die on error] (エラー発生時に強制終了)チェックボックスがオンになっている場合のみ機能します。

JOBID

ジョブのIDです。これはAfter変数で、文字列を返します。

STATISTICS

ジョブの統計です。これはAfter変数で、文字列を返します。

使用方法

使用ルール

これはジョブの終了時に使用される出力コンポーネントです。tFileInputDelimitedtMapまたはtMysqlInputなどの先行のコンポーネントからデータを受け取ります。

このコンポーネントは、マルチリージョンロケーションとリージョナルロケーションの両方を自動的に検出し、サポートします。リージョナルロケーションを使用する時は、使用するバケットとデータセットは同じロケーションに入れておく必要があります。