Spark UniversalでDataproc接続パラメーターを定義

このタスクについて

Talend StudioはDataprocクラスターに接続し、そのクラスターからジョブを実行します。Talend Studioは、Dataprocのバージョン2.0.xおよび2.1と互換性があります。

Sparkジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Spark 3.1.xまたはSpark 3.3.xにおけるDataprocとのSpark Universal接続設定を完成させます。この設定はジョブごとに有効です。

手順

デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
[Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSpark 3.1.xを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからDataprocを選択します。

設定の基本情報を入力します:

パラメーター	使用方法
[Use local timezone] (ローカルタイムゾーンを使用)	このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。情報メモ注: このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)	このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)	このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。

パラメーター

使用方法

[Use local timezone] (ローカルタイムゾーンを使用)

このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。

注:

このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。
コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。

[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)

このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:

チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。

このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。

重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。

[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)

このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。

注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。

Dataprocパラメーターを完成させます:

パラメーター	使用方法
[Project ID] (プロジェクトID)	Google Cloud PlatformプロジェクトのIDを入力します。
[Cluster ID] (クラスターID)	使用するDataprocクラスターのIDを入力します。
[Region] (リージョン)	使用するGoogle Cloudリージョンの名前を入力します。
[Google Storage staging bucket] (Googleストレージステージングバケット)	Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。
[Provide Google Credentials] (Googleクレデンシャルを指定)	Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。
[Credential type] (認証情報のタイプ)	プロジェクトの認証に使用されるモードを選択します。 [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使用して認証します。このモードを選択した場合、定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)です。 [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)です。
[Service account] (サービスアカウント)	使用するユーザーアカウントに関連付けられている認証情報ファイルのパスを入力します。このファイルはTalendジョブが実際に起動および実行されるコンピューターに保管されている必要があります。
[OAuth2 Access Token] (OAuth2アクセストークン)	アクセストークンを入力します。情報メモ重要: このトークンの有効期間は1時間のみです。Talend Studioはトークン更新操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。 Google Developers OAuth PlaygroundでOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限(bigquery、devstorage.full_control、cloud-platform)をすべて選択します。

[Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、jarファイルを転送するなどTalend Studioがローカルシステムに一時ファイルを保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。[Checkpoint directory] (チェックポイントディレクトリー)フィールドのクラスターのファイルシステム内に、Sparkが保存するディレクトリー、計算のコンテキストデータ(メタデータやなど)、その計算から生成されたRDDを入力します。
[Advanced properties] (詳細プロパティ)テーブルに、Talend Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください