Spark UniversalでDataproc接続パラメーターを定義 - Cloud - 8.0

Talend Data Fabric Studio User Guide

Version
Cloud
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

About this task

Talend StudioはDataprocクラスターに接続し、そのクラスターからジョブを実行します。Talend StudioはDataproc 2.0.xのバージョンと互換性があります。

Sparkジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブに、Spark 3.1.xでDataprocとのSpark Universal接続設定を完成させます。この構成はジョブごとに有効です。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

Procedure

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    Tip: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSpark 3.1.xを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからDataprocを選択します。
  4. 設定の基本情報を入力します:
    [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。
    Note:
    • このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
    • コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
    [Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:
    • チェックボックスを選択する場合は、ジョブ内のコンポーネントはDSで実行されて、パフォーマンスが向上します。
    • チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
    Important: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
    Note: 7.3以降で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。
    [Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。
    Note: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampjava.sql.Dateが使われます。
  5. Dataprocパラメーターを完成させます:
    プロジェクトID Google Cloud PlatformプロジェクトのIDを入力します。
    [Cluster ID] (クラスターID) 使用するDataprocクラスターのIDを入力します。
    [Region] (リージョン) 使用するGoogle Cloudリージョンの名前を入力します。
    [Google Storage staging bucket] (Googleストレージステージングバケット) Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。
    [Provide Google Credentials] (Googleクレデンシャルを指定) Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。
    [Credential type] (認証情報のタイプ) プロジェクトの認証に使用されるモードを選択します。
    • [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使用して認証します。このモードを選択した場合、定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)です。
    • [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)です。
    サービスアカウント 使用するユーザーアカウントに関連付けられている認証情報ファイルのパスを入力します。このファイルはTalendジョブが実際に起動および実行されるコンピューターに保管されている必要があります。
    [OAuth2 Access Token] (OAuth2アクセストークン) アクセストークンを入力します。
    Important: このトークンの有効期間は1時間のみです。Talend Studioはトークン更新操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。

    Google Developers OAuth PlaygroundでOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限(bigquerydevstorage.full_controlcloud-platform)をすべて選択します。

  6. [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Studioが一時ファイル(転送するjarファイルなど)をローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
  7. ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。[Checkpoint directory] (チェックポイントディレクトリー)フィールドのクラスターのファイルシステム内に、Sparkが保存するディレクトリー、計算のコンテキストデータ(メタデータやなど)、その計算から生成されたRDDを入力します。
  8. [Advanced properties] (詳細プロパティ)テーブルに、Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。

Results

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。