Google Dataflowでのプレパレーションの実行 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

プレパレーションでGoogle Cloud Dataflowをビッグデータエクスポートランタイムとして設定することができます。

警告: これはテクニカルプレビューであり、この機能のサポートはありません。

デフォルトのランタイムではなく、この新しいランタイムを設定するには、Streams RunnerSpark Job Serverの設定を行う必要があります。

始める前に

  1. Google Cloudの企業アカウントがあり、Google Cloudプロジェクトをすでに作成していること。
  2. Talend Data Preparationがインストールされていること。
  3. Streams RunnerSpark Job ServerがLinuxマシンにインストールされていること。
  4. Google Cloudでサービスアカウントを作成し、このサービスアカウントの認証情報を含んだ.jsonファイルをダウンロードしていること。このファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。サービスアカウントには、ジョブをGoogle Cloud Dataflowで実行する権限、Google Cloud Storageのジョブに関わるバケットへのアクセス権(入力バケットと出力バケット、tempLocation用に設定されたバケットなど)が必要です。.

手順

  1. <Streams_Runner_installation_path>/conf/application.confファイルを開きます。
  2. Google Dataflowをランナータイプとして設定するには、次のいずれかの手順を実行します。
    • DataflowRunnerrunner.typeパラメーターの値として設定します。
    • 次のコマンドを実行して、$(?RUNNER_TYPE)環境変数を使用します: export RUNNER_TYPE=DataflowRunner
  3. 2つの必須パラメーター(projecttempLocation)とその値を設定ファイルに追加して、ランナープロパティを設定します。

    これらの2つのパラメーターのほか、選択した他のパラメーターでランナー設定を完了します。使用可能な実行パラメーターの完全なリストについては、Googleのドキュメントを参照して下さい。

  4. Spark Job Serverを設定するには、次のコマンドを実行してGOOGLE_APPLICATION_CREDENTIALS環境変数を追加します。export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

    この変数は、Google Cloudサービスアカウントの認証情報を含んだ.jsonファイルを参照する必要があります。この.jsonファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。

  5. サービスを再起動します。

タスクの結果

プレパレーションをエクスポートするときには、データの入出力に応じて、デフォルトのビッグデータランタイムではなく、Google Cloud Dataflowランタイムが使用されます。入力と出力に応じて使用されるランタイムの詳細は、エクスポートオプションおよびランタイムマトリックスを参照して下さい。