メイン コンテンツをスキップする 補完的コンテンツへスキップ

tGoogleDataprocManageの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtGoogleDataprocManageを設定するために使われます。

標準tGoogleDataprocManageコンポーネントは、Cloudファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Project ID] (プロジェクトID)

Google Cloud PlatformプロジェクトのIDを入力します。

プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページでご確認ください。

[Cluster ID] (クラスターID)

使用するDataprocクラスターのIDを入力します。

[Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)

Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。

リモートマシン(Talend JobServerなど)からジョブを起動する場合は、このチェックボックスをオンにし、[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)フィールドが表示されたら、このJSONファイルを保存するTalend JobServerrマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。

Googleクレデンシャルファイルの詳細は、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideをご覧ください。

[Action] (アクション)

クラスター上でtGoogleDataprocManageに実行させる操作を選択します。
  • クラスターを作成する場合は、[Start](開始)を選択

  • クラスターを破棄する場合は、[Stop](停止)を選択

[Version] (バージョン)

Dataprocクラスターの作成に使用するイメージのバージョンを選択します。

[Region] (リージョン)

使用するGoogle Cloudリージョンをこのドロップダウンリストから、選択します。

[Zone] (ゾーン)

コンピューティングリソースを使用し、データを保存、処理する地理的なゾーンを選択します。利用可能なゾーンは、Regionドロップダウンリストから、選択したリージョンによって異なります。

Google Cloudで言うゾーンとは、リージョン内の隔離されたロケーションです。これは、Google Cloudで用いられているもう1つの地理的な用語です。

[Instance configuration] (インスタンス設定)

作成するDataprocクラスターで使うマスターとワーカーの数、およびそのマスターとワーカーのパフォーマンスを決定するパラメーターを入力します。

詳細設定

[Wait for cluster ready] (クラスターの準備ができるまで待機)

クラスターを完全に設定するまでこのコンポーネントを実行し続ける場合は、このチェックボックスを選択します。

このチェックボックスをオンにしない場合、このコンポーネントの実行は、作成コマンドの送信後即座に停止します。

[Master disk size] (マスターディスクサイズ)

各マスターインスタンスのディスクのサイズを決定する数値を引用符なしで入力します。

[Master local SSD] (マスターローカルSSD)

各マスターインスタンスに追加するローカルの半導体ドライブ(SSD)ストレージデバイスの数を決定する数値を引用符なしで入力します。

Googleによると、これらのローカルSSDはキャッシュ、処理領域、または重要性の低いデータなど、一時保管のみに適しています。重要なデータは、Googleの長期保管用のストレージオプションに保存することをお勧めします。Googleのストレージオプションの詳細は、Durable storage optionsをご覧ください。

Worker disk size

各ワーカーインスタンスのディスクのサイズを決定する数値を引用符なしで入力します。

[Worker local SSD] (ワーカーローカルSSD)

各ワーカーインスタンスに追加するローカルの半導体ドライブ(SSD)ストレージデバイスの数を決定する数値を引用符なしで入力します。

Googleによると、これらのローカルSSDはキャッシュ、処理領域、または重要性の低いデータなど、一時保管のみに適しています。重要なデータは、Googleの長期保管用のストレージオプションに保存することをお勧めします。Googleのストレージオプションの詳細は、Durable storage optionsをご覧ください。

[Network] (ネットワーク)または[Subnetwork] (サブネットワーク)

作成するクラスター用のGoogle Compute Engineネットワークまたはサブネットワークを使用して、イントラクラスター通信を有効にするには、いずれかのチェックボックスをオンにします。

Googleではネットワークとサブネットワークの同時使用が許可されていないため、いずれか1つのチェックボックスをオンにすると、もう一方のチェックボックスは非表示になります。

Google Dataprocクラスターネットワーク設定の詳細は、Dataproc Networkをご覧ください。

[Internal IP only] (内部IPのみ)

このチェックボックスを選択すると、内部IPアドレスのみとなるようクラスター内の全インスタンスを設定できます。

クラスターノードが内部IPからGoogle APIやサービスにアクセスできるようにする場合は、クラスターのサブネットワークでPrivate Google Accessのプライベート アクセスが有効になっていることが必要です。

詳細は、Dataprocクラスターネットワークの構成をご覧ください。

[Initialization action] (初期化アクション)

この表では、Google Cloud Storage上の共有バケットで使用可能な、Dataproc クラスターの設定直後にこの全ノードで実行する初期化処理を選択します。

カスタム初期化スクリプトを使用する場合は、tGoogleDataprocManageが読み取れるようこの共有Googleバケットをアップロードします。

  • Executable fileカラムに、gs://dataproc-initialization-actions/MyScriptのように、使用するカスタム初期化スクリプトへのGoogle Cloud Storage URIを入力します。

  • Executable timeoutカラムで、実行期間を決定する時間量を二重引用符で囲んで入力します。実行ファイルがこのタイムアウトまでに完了しなかった場合は、その理由を説明するエラーメッセージが返されます。値は小数点第9位までの文字列です。たとえば、"3.5s"は3.5秒になります。

この共有バケットと初期化処理の詳細は、初期化アクションをご覧ください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

使用方法

使用ルール

このコンポーネントは、サブジョブでスタンドアロンとして使います。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。