Spark UniversalでCloudera Data Engineering接続パラメーターを定義 - Cloud

Talend Cloud Big Data Studio ユーザーガイド

Version
Cloud
Language
日本語 (日本)
EnrichDitaval
Big Data
Product
Talend Cloud
Module
Talend Studio
Content
ジョブデザインと開発

About this task

Talend Studioは、Cloudera Data Engineering (CDE)サービスに接続してこのクラスターからSparkジョブを実行します。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

Sparkジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Spark 3.1.xまたはSpark 3.2.xでのKubernetesとのSpark Universal接続設定を完成させます。この構成はジョブごとに有効です。

Procedure

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    Tip: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSpark 3.1.xまたはSpark 3.2.xを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからCloudera Data Engineeringを選択します。
  4. WindowsからSparkジョブを起動する必要がある場合は、使用されるwinutils.exeプログラムの保管場所を指定します。
    • 使用するwinutils.exeファイルの保管場所がわかっている場合、[Define the Hadoop home directory] (Hadoopホームディレクトリーの指定)チェックボックスをオンにし、winutils.exeが保存されているディレクトリーを入力します。

    • 逆に、Hadoopホームディレクトリーの指定チェックボックスをオフにすると、Studioによってディレクトリーが作成され、このジョブで自動的に使用されます。

  5. [Configuration] (設定)の基本情報を入力します:
    [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。
    Note:
    • このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
    • コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
    [Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:
    • チェックボックスを選択する場合は、ジョブ内のコンポーネントはDSで実行されて、パフォーマンスが向上します。
    • チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
    Important: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
    Note: 7.3以降で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。
    [Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。
    Note: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampjava.sql.Dateが使われます。
  6. [CDE configuration] (CDE設定)のパラメーターを完成させます:
    [CDE API endpoint] (CDE APIエンドポイント) CDE APIエンドポイントを入力します。このURLはJOBS API URLリンクにあります。
    [CDE API token] (CDE APIトークン) API認証に使用したいCDEトークンを入力します。URLは [BASE_URL]/gateway/authtknという形式であることが必要です。詳細は、ClouderaのドキュメンテーションでCDE API access tokenをご覧ください。

    このプロパティは、[Auto generate token] (トークンを自動生成)チェックボックスがオフになっている場合のみ利用できます。

    [Auto generate token] (トークンを自動生成) ジョブを送信する前に新しいトークンを作成する場合は、このチェックボックスをオンにします。
    • [CDE token endpoint] (CDEトークンエンドポイント): 使用したいCDEトークンを入力します。
    • [Workload user] (ワークロードユーザー): 新しいトークンの生成に使用したいCDPワークロードを入力します。詳細は、ClouderaのドキュメンテーションでCDP workload userをご覧ください。
    • [Workload password] (ワークロードパスワード): ワークロードユーザーに関連付けられているパスワードを入力します。
    [Enable client debugging] (クライアントデバッギングを有効化) CDE APIクライアントのデバッグロギングが有効にする場合は、このチェックボックスをオンにします。
    [Override dependencies] (依存項目を上書き) Sparkに必要な依存項目を上書きする場合は、このチェックボックスをオンにします。
    [Job status/logs polling interval (in ms) ] (ジョブステータス/ログのポーリング間隔(ミリ秒) ) StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。
    [Fetch driver logs] (ドライバーログをフェッチ) ドライバーログをフェッチする場合は、このチェックボックスをオンにします。チェックボックスをオンにすれば、次の情報をフェッチできます。
    • [Standard output] (標準出力)
    • [Error output] (エラー出力)
    [Advanced parameters] (詳細パラメーター) 次のCDE APIパラメーターを入力する場合は、このチェックボックスをオンにします。
    • [Number of executors] (エグゼキューターの数): エグゼキューターの数を入力します。
    • [Driver cores] (ドライバーコア): ドライバーコアの数を入力します。
    • [Driver memory] (ドライバーメモリ): ドライバーによって使用されるメモリの割り当て量を入力します。
    • [Executor cores] (エグゼキューターコア): エグゼキューターコアの数を入力します。
    • [Executor memory] (エグゼキューターメモリ): 各エグゼキューターによって使用されるメモリの割り当て量を入力します。
  7. [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドで、Studioが一時ファイル(転送するjarファイルなど)をローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
  8. [Activate checkpointing] (チェックポイントを有効化)
  9. [Advanced properties] (詳細プロパティ)テーブルに、Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。

Results

これで接続詳細が完全なものになったので、ジョブの実行をスケジュールしたり、すぐに実行したりできます。