Dataproc接続パラメーターの定義 - 7.3

Sparkバッチ

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ

ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Google Dataproc接続設定を完成させます。この構成は、ジョブごとに有効です。

このタイプのクラスターでは、Yarnクライアントモードしか使用できません。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

手順

  1. Dataprocの基本的な接続情報を入力します。
    [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。
    注:
    • このチェックボックスがオフのままであれば、SparkではUTCタイムゾーンが使われます。
    • コンポーネントによっては[Use local timezone] (ローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスがオフのままであれば、Sparkで設定されているタイムゾーンが継承されます。
    [Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) コンポーネントにRDD APIではなくDataset APIを使用させる場合は、このチェックボックスを選択します。
    重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
    [Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。
    注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampjava.sql.Dateが使われます。

    [Project identifier] (プロジェクト識別子)

    Google Cloud PlatformプロジェクトのIDを入力します。

    プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページで確認してください。

    [Cluster identifier] (クラスター識別子)

    使用するDataprocクラスターのIDを入力します。

    [Region] (リージョン)

    使用するGoogle Cloudリージョンをこのドロップダウンリストで選択します。

    [Google Storage staging bucket] (Googleストレージステージングバケット)

    Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。

    入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。

  2. Google Dataprocクラスターへの認証情報を入力します。

    [Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)

    Google Cloud SDKがインストールされていて、Google Cloud Platformへのアクセスにユーザーアカウントの認証情報を使用することが許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。

    ジョブサーバーなど、リモートマシンからジョブを起動する場合は、このチェックボックスをオンにし、[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)フィールドが表示されたら、このJSONファイルを保存するジョブサーバーマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。

    Googleクレデンシャルファイルの詳細は、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideを参照してください。

    [Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるモードを選択します。
    • [Service Account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使って認証します。このモードを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルのパス)になります。[Use P12 credentials file format] (P12認証情報ファイル形式を使用)[Service Account Id] (サービスアカウントID)はオプションです。
    • [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)になります。

    このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。

    [OAuth2 Access Token] (OAuth2アクセストークン)
    アクセストークンを入力します。
    重要: このトークンの有効期間は1時間のみです。Talend Studioはトークンリフレッシュ操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。

    Google Developers OAuth PlaygroundでOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限をすべて選択します。

    このフィールドは、[Credential type] (認証情報タイプ)ドロップダウンリストで[OAuth2 Access Token] (OAuth2アクセストークン)を選択した場合のみ利用できます。

    このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。

    [Use P12 credentials file format] (P12認証情報ファイル形式を使用)

    使用するGoogleクレデンシャルファイルがP12形式の場合は、このチェックボックスをオンにし、表示される[Service Account Id] (サービスアカウントID)フィールドにP12認証情報ファイルが作成されたサービスアカウントのIDを入力します。

    このフィールドは、[Credential type] (認証情報タイプ)ドロップダウンリストで[Service Account] (サービスアカウント)を選択した場合のみ利用できます。

    このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。

  3. [Yarn client] (Yarnクライアント)モードでは、[Property type] (プロパティタイプ)リストが表示されるため、[Repository] (リポジトリー)でHadoop接続を既に作成してある場合は、その確立済みのHadoop接続を[Repository] (リポジトリー)から選択できます。接続の選択後、Studioによってこのジョブの接続情報のセットが再使用されます。
  4. [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドで、転送するjarファイルなどの一時ファイルをStudioがローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。

タスクの結果