tGoogleDataprocManage標準プロパティ - 7.3

Google Dataproc

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Google Dataprocコンポーネント
データガバナンス > サードパーティーシステム > クラウドストレージ > Google Dataprocコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Google Dataprocコンポーネント

このプロパティはStandardジョブフレームワークで実行されているtGoogleDataprocManageを設定するために使います。

Standard tGoogleDataprocManageコンポーネントはクラウドファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Project identifier] (プロジェクト識別子)

Google Cloud PlatformプロジェクトのIDを入力します。

プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページで確認してください。

[Cluster identifier] (クラスター識別子)

使用するDataprocクラスターのIDを入力します。

[Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)

Google Cloud SDKがインストールされていて、Google Cloud Platformへのアクセスにユーザーアカウントの認証情報を使用することが許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。

ジョブサーバーなど、リモートマシンからジョブを起動する場合は、このチェックボックスを選択し、[Path to Google Credentials file] (Googleクレデンシャルファイルパス)フィールドが表示されたら、このJSONファイルを保存するジョブサーバーマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。

Googleクレデンシャルファイルの詳細については、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideを参照してください。

[Action] (アクション)

クラスター上でtGoogleDataprocManageに実行させる操作を選択します。
  • クラスターを作成する場合は、[Start](開始)を選択

  • クラスターを破棄する場合は、[Stop](停止)を選択

[Version] (バージョン)

Dataprocクラスターの作成に使用するイメージのバージョンを選択します。

[Region] (リージョン)

使用するGoogle Cloudリージョンをこのドロップダウンリストで選択します。

[Zone] (ゾーン)

コンピューティングリソースを使用し、データを保存、処理する地理的なゾーンを選択します。利用可能なゾーンは、Regionドロップダウンリストで選択したリージョンによって異なります。

Google Cloudで言うゾーンとは、リージョン内の隔離されたロケーションです。これは、Google Cloudで用いられているもう1つの地理的な用語です。

[Instance configuration] (インスタンス設定)

作成するDataprocクラスターで使うマスターとワーカーの数、およびそのマスターとワーカーのパフォーマンスを決定するパラメーターを入力します。

詳細設定

[Wait for cluster ready] (クラスターの準備ができるまで待機)

クラスターを完全に設定するまでこのコンポーネントを実行し続ける場合は、このチェックボックスを選択します。

このチェックボックスを選択しない場合、このコンポーネントの実行は、作成コマンドの送信後即座に停止します。

[Master disk size] (マスターディスクサイズ)

各マスターインスタンスのディスクのサイズを決定する数値を引用符なしで入力します。

[Master local SSD] (マスターローカルSSD)

各マスターインスタンスに追加するローカルの半導体ドライブ(SSD)ストレージデバイスの数を決定する数値を引用符なしで入力します。

Googleによると、これらのローカルSSDはキャッシュ、処理領域、または重要性の低いデータなど、一時保管のみに適しています。重要なデータは、Googleの長期保管用のストレージオプションに保存することをお勧めします。Googleのストレージオプションの詳細については、「Durable storage options」を参照してください。

Worker disk size

各ワーカーインスタンスのディスクのサイズを決定する数値を引用符なしで入力します。

[Worker local SSD] (ワーカーローカルSSD)

各ワーカーインスタンスに追加するローカルの半導体ドライブ(SSD)ストレージデバイスの数を決定する数値を引用符なしで入力します。

Googleによると、これらのローカルSSDはキャッシュ、処理領域、または重要性の低いデータなど、一時保管のみに適しています。重要なデータは、Googleの長期保管用のストレージオプションに保存することをお勧めします。Googleのストレージオプションの詳細については、「Durable storage options」を参照してください。

[Network] (ネットワーク)または[Subnetwork] (サブネットワーク)

作成するクラスター用のGoogle Compute Engineネットワークまたはサブネットワークを使用して、イントラクラスター通信を有効にするには、いずれかのチェックボックスを選択します。

Googleではネットワークとサブネットワークの同時使用が許可されていないため、いずれか1つのチェックボックスを選択すると、もう一方のチェックボックスは非表示になります。

Google Dataprocクラスターネットワーク設定の詳細については、「Dataproc Network」を参照してください。

[Internal IP only] (内部IPのみ)

このチェックボックスを選択すると、内部IPアドレスのみとなるようクラスター内の全インスタンスを設定できます。

クラスターノードが内部IPからGoogle APIやサービスにアクセスできるようにする場合は、クラスターのサブネットワークでPrivate Google Accessのプライベート アクセスが有効になっていることが必要です。

詳細は、Create a Dataproc cluster with internal IP addresses only (内部IPアドレスのみを持つDataprocクラスターの作成)を参照してください。

[Initialization action] (初期化アクション)

この表では、Google Cloud Storage上の共有バケットで使用可能な、Dataproc クラスターの設定直後にこの全ノードで実行する初期化処理を選択します。

カスタム初期化スクリプトを使用する場合は、tGoogleDataprocManageが読み取れるようこの共有Googleバケットをアップロードします。

  • [Executable file] (実行ファイル)カラムに、gs://dataproc-initialization-actions/MyScriptのように、使用するカスタム初期化スクリプトへのGoogle Cloud Storage URIを入力します。

  • [Executable timeout] (実行タイムアウト)カラムに、実行期間を決定する時間量を二重引用符で囲んで入力します。実行ファイルがこのタイムアウトまでに完了しなかった場合は、その理由を説明するエラーメッセージが返されます。値は小数点第9位までの文字列です。たとえば、"3.5s"は3.5秒になります。

この共有バケットと初期化処理の詳細については、「初期化アクション」を参照してください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

使用方法

使用ルール

このコンポーネントはサブジョブでスタンドアロンとして使います。