Google Dataflowでのプレパレーションの実行

プレパレーションでGoogle Cloud Dataflowをビッグデータエクスポートランタイムとして設定できます。

警告: これはベータサービスです。サポートは提供されていません。

デフォルトのランタイムではなく、この新しいランタイムを設定するには、Streams RunnerとSpark Job Serverの設定を行う必要があります。

始める前に

Google Cloudの企業アカウントがあり、Google Cloudプロジェクトを既に作成していること。
Talend Data Preparationがインストールされていること。
Streams RunnerとSpark Job ServerがLinuxマシンにインストールされていること。
Google Cloudでサービスアカウントを作成し、このサービスアカウントの認証情報を含んだ.jsonファイルをダウンロード済みであること。このファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。サービスアカウントには、ジョブをGoogle Cloud Dataflowで実行する権限、Google Cloud Storageのジョブに関わるバケットへのアクセス権(入力バケットと出力バケット、tempLocation用に設定されたバケットなど)が必要です。

手順

<Streams_Runner_installation_path>/conf/application.confファイルを開きます。
Google Dataflowをランナータイプとして設定するには、次のいずれかの手順を実行します。
- runner.typeパラメーターの値としてDataflowRunnerを設定します。
- 次のコマンドを実行して$(?RUNNER_TYPE)環境変数を使用します: export RUNNER_TYPE=DataflowRunner
2つの必須パラメーターprojectとtempLocationとその値を設定ファイルに追加して、ランナープロパティを設定します。

これらの2つのパラメーターのほか、選択した他のパラメーターでランナー設定を完了します。使用可能な実行パラメーターの完全なリストについては、Googleのドキュメント (英語のみ)を参照してください。
Spark Job Serverを設定するには、次のコマンドを実行してGOOGLE_APPLICATION_CREDENTIALS環境変数を追加します: export GOOGLE_APPLICATION_CREDENTIALS=<path_to_service_account_file>

この変数は、Google Cloudサービスアカウントの認証情報を含んだ.jsonファイルを参照する必要があります。この.jsonファイルは、Spark Job Serverがインストールされている同じマシンに保管する必要があります。
サービスを再起動します。

タスクの結果

プレパレーションをエクスポートする時は、データの入出力に応じて、デフォルトのビッグデータランタイムではなく、Google Cloud Dataflowランタイムが使用されます。入力と出力に応じて使用されるランタイムの詳細は、エクスポートオプションおよびランタイムマトリクス (英語のみ)を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください