tBigQueryBulkExecの標準プロパティ - Cloud - 8.0

Google BigQuery

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
データガバナンス > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Google コンポーネント > Google BigQuery
Last publication date
2024-02-28

これらのプロパティは、標準ジョブのフレームワークで実行されているtBigQueryBulkExecを設定するために使われます。

標準tBigQueryBulkExecコンポーネントは、ビッグデータファミリーに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。変更を加えると、スキーマは自動的に組み込みになります。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 
  • BigQueryのレコードタイプはサポートされていません。
  • DescriptionカラムやModeカラムなど、テーブルメタデータのカラムは取得できません。
  • BigQueryシステムからのタイムスタンプデータは、文字列データにフォーマットされます。
  • BigQueryの数値データはBigDecimalに変換されます。
[Authentication mode] (認証モード) プロジェクトの認証に使用されるモードを選択します。
  • [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使って認証します。このモードを選択した場合、定義されるパラメーターは[Service account credentials file] (サービスアカウント認証ファイル)です。
  • [Application Default Credentials] (アプリケーションのデフォルト認証情報): アプリケーションのデフォルト認証情報を使って認証します。このモードを選択した場合、アプリケーション環境に基づいて認証情報が自動的に検索されるので、追加のパラメーターを定義する必要はありません。
  • OAuth 2.0: OAuth認証情報を使って認証します。このモードを選択した場合、定義されるパラメーターは、[Client ID] (クライアントID)[Client secret] (クライアントシークレット)[Authorization code] (認証コード)です。
  • [OAuth Access Token] (OAuth アクセストークン): OAuthアクセストークンを使用して認証します。このモードを選択した場合、定義されるパラメーターは[OAuth Access Token] (OAuthアクセストークン)です。

Google Cloudの認証プロセスに関する詳細は、Google Cloudのドキュメンテーションをご参照ください。

[Service account credentials file] (サービスアカウント認証情報ファイル) 使用するサービスアカウント用に作成された認証情報ファイルへのパスを入力します。このファイルはTalendジョブが実際に起動および実行されるコンピューターに保管されている必要があります。

これらのプロパティは、サービスアカウントを使って認証する場合のみ利用可能です。

[Client ID] (クライアントID)および[Client Secret] (クライアントシークレット)

クライアントIDおよびクライアントシークレットを貼り付けます。両方とも使用するGoogle BigQueryサービスおよびCloud StorageサービスをホスティングしているプロジェクトのAPI Accessタブビューで作成され、および表示可能になっています。

クライアントシークレットを入力するには、クライアントシークレットフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスでクライアントシークレットを二重引用符の間に入力し、OKをクリックして設定を保存します。

これらのプロパティは、OAuth 2.0を使って認証する場合のみ利用可能です。

[OAuth Access Token] (OAuthアクセストークン) アクセストークンを入力します。

トークンのライフタイムは1時間です。コンポーネントはトークン更新操作を行いませんが、1時間という制限時間を超えても操作できるよう、新しいアクセストークンをフェッチします。

これらのプロパティは、[OAuth Access Token] (OAuthアクセストークン)を使って認証する場合のみ利用可能です。

[Project ID] (プロジェクトID)

使用する必要があるGoogle BigQueryサービスをホスティングしているプロジェクトのIDを貼り付けます。

プロジェクトのIDは、Google API ConsoleのURL、またはBigQuery Browser Toolでプロジェクト名にマウスを重ねると表示されます。

[Authorization code] (認証コード)

構築中のアクセスに対してGoogleにより提供される認証コードを貼り付けます。

認証コードを取得するには、このコンポーネントを使用してジョブを実行する必要があります。このジョブが実行を一時停止してURLアドレスを出力する場合は、このアドレスに移動して、表示されている認証コードをコピーします。

[Dataset] (データセット)

データを転送する転送先のデータセットの名前を入力します。

[Table] (テーブル)

データを転送する転送先のテーブルの名前を入力します。

このテーブルが存在しない場合は、[Create the table if it doesn't exist] (テーブルが存在しない場合は作成)チェックボックスをオンにします。

[Action on data] (データでのアクション)

ターゲットテーブルにデータを転送する時に、ドロップダウンリストから実行するアクションを選択します。アクションは以下のようになります:

  • [Truncate] (切り捨て): テーブルの内容を空にし、転送されたデータで再作成します。

  • [Append] (追加): テーブルの既存のデータに行を追加します。

  • [Empty] (空): 空のテーブルに入力します。

[Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるタイプを選択します。
  • [Service account] (サービスアカウント): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Service account key] (サービスアカウントキー)になります。
  • [Application Default Credentials] (アプリケーションのデフォルト認証情報): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Application Default Credentials] (アプリケー ションのデフォルト認証情報)となります。
  • [OAuth Access Token] (OAuthアクセストークン): この認証情報タイプを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[OAuth Access Token] (OAuthアクセストークン)になります。

デフォルトでは、[Service account] (サービスアカウント)が選択されています。[Credential type] (認証情報の種類)フィールドは、[Bulk file already exists in Google storage] (バルクファイルがGoogle Storageに既に存在する)チェックボックスがオフになっている場合のみ利用できます。

[Bulk file already exists in Google storage] (バルクファイルがGoogle Storageに既に存在する)

このチェックボックスをオンにすると、Google Cloud Storage接続の認証情報が再利用され、[File] (ファイル)および[Header] (ヘッダー)フィールドが完成します。

[Service account key] (サービスアカウントキー)

サービスアカウントキーフィールドの横にある[...]ボタンをクリックして、サービスアカウントキーを含むJSONファイルを参照します。

これらのプロパティは、サービスアカウントを使って認証する場合のみ利用可能です。

[Access key] (アクセスキー)および[Secret key] (シークレットキー)

Google Cloud StorageにリクエストするためにGoogleから取得した認証情報を貼り付けます。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

これらのキーは、プロジェクトの[Google Cloud Storage]タブの[Interoperable Access]タブビューで参照できます。

[OAuth Access Token] (OAuthアクセストークン) アクセストークンを入力します。

トークンのライフタイムは1時間です。コンポーネントはトークン更新操作を行いませんが、1時間という制限時間を超えても操作できるよう、新しいアクセストークンをフェッチします。

これらのプロパティは、[OAuth Access Token] (OAuthアクセストークン)を使って認証する場合のみ利用可能です。

[File to upload] (アップロードするファイル)

Google BigQueryに転送するデータがGoogle Cloud Storageに保管されていない場合は、参照するか、パスを入力します。

Bucket (バケット)

Google BigQueryに転送するデータを保持するGoogle Cloud Storageコンテナーのバケットの名前を入力します。

ファイル

Google Cloud Storageに保管され、Google BigQueryに転送されるデータのディレクトリーを入力します。このデータは、バケットルートの直下に保管する必要があります。たとえば、gs://my_bucket/my_file.csvと入力します。

データがGoogle Cloud Storageにない場合、このディレクトリーはデータがGoogle BigQueryに転送する途中のデスティネーションとして使用されます。

ヘッダー

転送されたデータのヘッダーを無視するように値をセットします。たとえば、ヘッダーのないデータの行を無視するには、0を入力します 。

[Die on error] (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー時に行をスキップし、エラーの発生していない行の処理が完了されます。デフォルトでは選択されていません。

詳細設定

[Use a custom endpoint] (カスタムエンドポイントを使用) デフォルトのエンドポイントの代わりにプライベートエンドポイントを使う場合は、このチェックボックスを選択します。
選択後は、次のプロパティにURLを入力します。
  • Google Storage Private API URL (形式はhttps://storage.googleapis.com)
  • Google BigQuery Private API URL (形式はhttps://bigquery.googleapis.com)

詳細は、Google CloudのドキュメンテーションでAccess Google APIs through endpointsをご覧ください。

これらのプロパティは、サービスアカウントを使って認証する場合のみ利用可能です。

[token properties File Name] (トークンプロパティファイル名)

使用する必要がある更新トークンファイルのパスを入力するか、参照します。

Google BigQueryから取得した[Authorization code] (認証コード)を使用する最初のジョブ実行の場合、このフィールドの値は、作成し使用する更新トークンファイルのディレクトリーと名前になります。トークンファイルが作成済みで、再利用する必要がある場合、このフィールドにディレクトリーとファイル名を指定する必要があります。

トークンファイル名のみを入力した場合、 Talend Studioにより、トークンファイルのディレクトリーがTalend Studioフォルダーのルートであると見なされます。

更新トークンの詳細は、Google BigQueryのマニュアルをご覧ください。

[Set the field delimiter] (フィールド区切りを指定)

転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。

[Use custom null marker] (カスタムnullマーカーを使用)

このオプションを選択すると、特定の文字をnullマーカーとして使用できます。右側のテキスト枠内の二重引用符でnullマーカーを指定できます。

このオプションは、null値を持つフィールドによるエラーを防止します。

[Drop table if exists] (存在する場合はテーブルをドロップ)

このテーブルが既に存在する場合は、[Drop table if exists] (存在する場合はテーブルをドロップ)チェックボックスをオンにして、[Table] (テーブル)フィールドで指定したテーブルを削除します。

[Encoding] (エンコーディング)

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。このフィールドはデータベースデータ処理の必須フィールドです。サポートされるエンコーディングは、使用しているJVMに応じて異なります。詳細は、https://docs.oracle.comをご覧ください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

Global Variables

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数は、[Die on error] (エラー発生時に強制終了)チェックボックスがオンになっている場合のみ機能します。

JOBID

ジョブのIDです。これはAfter変数で、文字列を返します。

STATISTICS

ジョブの統計です。これはAfter変数で、文字列を返します。

使用方法

使用ルール

このコンポーネントは、スタンドアロンコンポーネントです。

このコンポーネントは、マルチリージョンロケーションとリージョナルロケーションの両方を自動的に検出し、サポートします。リージョナルロケーションを使用する時は、使用するバケットとデータセットは同じロケーションに入れておく必要があります。