ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Google Dataproc接続設定を完成させます。この設定はジョブごとに有効です。
このタイプのクラスターでは、Yarnクライアントモードしか使用できません。
このセクションの情報は、Talend Data Fabric、またはビッグデータ関連のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。
手順
-
Dataprocに基本的な接続情報を入力します。
[Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。 注:- このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
- コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: - チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
- チェックボックスをオフにする場合は、ジョブ内のコンポーネントは、RDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。注: 7.3で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付で java.sql.Timestamp
使われます。注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestamp
かjava.sql.Date
が使われます。[Project identifier] (プロジェクト識別子)
Google Cloud PlatformプロジェクトのIDを入力します。
プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページでご確認ください。
[Cluster identifier] (クラスター識別子)
使用するDataprocクラスターのIDを入力します。
[Region] (リージョン) 使用するGoogle Cloudリージョンをこのドロップダウンリストから、選択します。
[Google Storage staging bucket] (Googleストレージステージングバケット) Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。
入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。
-
Google Dataprocクラスターへの認証情報を入力します。
[Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)
Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。
JobServerなど、リモートマシンからジョブを起動する場合は、このチェックボックスをオンにし、[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)フィールドが表示されたら、このJSONファイルを保存するJobServerマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。
Googleクレデンシャルファイルの詳細は、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideをご覧ください。
[Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるモードを選択します。 - [Service Account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使って認証します。このモードを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルのパス)になります。[Use P12 credentials file format] (P12認証情報ファイル形式を使用)と[Service Account Id] (サービスアカウントID)はオプションです。
- [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、[Basic settings] (基本設定)ビューで定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)になります。
このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。
[OAuth2 Access Token] (OAuth2アクセストークン) アクセストークンを入力します。重要: このトークンの有効期間は1時間のみです。Talend Studioはトークン更新操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。Google Developers OAuth PlaygroundでOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限をすべて選択します。
このフィールドは、[Credential type] (認証情報タイプ)ドロップダウンリストで[OAuth2 Access Token] (OAuth2アクセストークン)を選択した場合のみ利用できます。
このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。
[Use P12 credentials file format] (P12認証情報ファイル形式を使用) 使用するGoogleクレデンシャルファイルがP12形式の場合は、このチェックボックスをオンにし、表示される[Service Account Id] (サービスアカウントID)フィールドにP12認証情報ファイルが作成されたサービスアカウントのIDを入力します。
このフィールドは、[Credential type] (認証情報タイプ)ドロップダウンリストで[Service Account] (サービスアカウント)を選択した場合のみ利用できます。
このフィールドはDataproc 1.4ディストリビューションでのみ利用できます。
- [Yarn client] (Yarnクライアント)モードでは、[Property type] (プロパティタイプ)リストが表示されるため、[Repository] (リポジトリー)でHadoop接続を既に作成してある場合は、その確立済みのHadoop接続を[Repository] (リポジトリー)から選択できます。接続の選択後、Studioによってこのジョブの接続情報のセットが再使用されます。
- [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Studioが一時ファイル(転送するjarファイルなど)をローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。その結果、このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
タスクの結果
-
接続の設定後、必須ではありませんがSparkのパフォーマンスを調整できます。調整する場合は、以下に記載のプロセスに従います。
-
Spark BatchジョブであればApache Spark Batchジョブ用にSparkを調整
-
Spark StreamingジョブであればApache Spark Streamingジョブ用にSparkを調整
-
-
問題が発生した場合にSparkジョブのデバッグや再開ができるよう、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでロギングとチェックポインティングを有効にしておくことをお勧めします: