Spark Universalでスタンドアロン接続パラメーターを定義 - Cloud

Talend Cloud Big Data Studio ユーザーガイド

Version
Cloud
Language
日本語 (日本)
EnrichDitaval
Big Data
Product
Talend Cloud
Module
Talend Studio
Content
ジョブデザインと開発

About this task

Talend StudioはSparkが有効になったクラスターに接続し、そのクラスターからジョブを実行します。

Sparkジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Spark 3.2.xで[Standalone] (スタンドアロン)モードとのSpark Universal接続設定を完成させます。この構成はジョブごとに有効です。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

Procedure

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    Tip: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSpark 3.2.xを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストから[Standalone] (スタンドアロン)を選択します。
  4. [Standalone] (スタンドアロン)設定情報を入力します:
    [Standalone master] (スタンドアロンマスター) Sparkジョブを送信するマスターのサーバーを入力します。
    [Configure executors] (エグゼキューターを設定) このチェックボックスをオンにして、エグゼキューターを設定します:
    • [Executors memory] (エグゼキューターメモリ): 各Sparkエグゼキューターによって使用されるメモリの割り当て量を入力します。
    • [Executors core] (エグゼキューターコア): 各エグゼキューターが使用するコアの数を入力します。

    このチェックボックスをオフにすると、Sparkのデフォルト値が使用され、エグゼキューターメモリには1g、エグゼキューターコアには1が使用されます。詳細については、Sparkの公式ドキュメンテーションをご覧ください。

  5. WindowsからSparkジョブを起動する必要がある場合は、使用されるwinutils.exeプログラムの保管場所を指定します。
    • 使用するwinutils.exeファイルの保管場所がわかっている場合、[Define the Hadoop home directory] (Hadoopホームディレクトリーの指定)チェックボックスをオンにし、winutils.exeが保存されているディレクトリーを入力します。

    • 逆に、Hadoopホームディレクトリーの指定チェックボックスをオフにすると、Studioによってディレクトリーが作成され、このジョブで自動的に使用されます。

  6. 設定の基本情報を入力します:
    [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。
    Note:
    • このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
    • コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
    [Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:
    • チェックボックスを選択する場合は、ジョブ内のコンポーネントはDSで実行されて、パフォーマンスが向上します。
    • チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
    Important: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
    Note: 7.3以降で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。
    [Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。
    Note: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampjava.sql.Dateが使われます。
  7. [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Studioが一時ファイル(転送するjarファイルなど)をローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
  8. ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。[Checkpoint directory] (チェックポイントディレクトリー)フィールドのクラスターのファイルシステム内に、Sparkが保存するディレクトリー、計算のコンテキストデータ(メタデータやなど)、その計算から生成されたRDDを入力します。
  9. [Advanced properties] (詳細プロパティ)テーブルに、Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。

Results

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。