Spark UniversalでDatabricks接続パラメーターを定義 - Cloud - 8.0

Talend Data Fabric Studio User Guide

Version
Cloud
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

About this task

Talend Studioは対話型のDatabricksクラスターに接続し、そのクラスターからジョブを実行します。

Sparkジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Spark 3.1.xまたはSpark 3.2.xでDatabricksモードとのSpark Universal接続設定を完成させます。この構成はジョブごとに有効です。

このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。

Procedure

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    Tip: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSpark 3.1.xまたはSpark 3.2.xを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストから[Local] (ローカル)を選択します。
  4. 設定の基本情報を入力します:
    [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使います。
    Note:
    • このチェックボックスをオフにすると、SparkによってUTCタイムゾーンが使用されます。
    • コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンを継承します。
    [Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:
    • チェックボックスを選択する場合は、ジョブ内のコンポーネントはDSで実行されて、パフォーマンスが向上します。
    • チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
    Important: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
    Note: 7.3以降で新しく作成されたジョブはDSを使用し、7.3以前のバージョンからインポートされたジョブはデフォルトでRDDを使用します。しかし、すべてのコンポーネントがRDDからDSに移行されないため、デフォルトでエラーを避けるには、チェックボックスをオフにすることをお勧めします。
    [Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。
    Note: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampjava.sql.Dateが使われます。
  5. [Databricks configuration] (Databricks設定)のパラメーターを完成させます:
    [Cloud provider] (クラウドプロバイダー) 使用するクラウドプロバイダーとして、AWSAzureGCPのいずれかを選択します。
    [Run mode] (実行モード) Talend Studioでジョブを実行する際に、Databricksクラスターでのジョブの実行に使いたいモードを選択します。[Create and run now] (今すぐ作成して実行)では、Databricksで新しいジョブが作成されてすぐに実行されます。[Runs submit] (実行を送信)では、Databricksでジョブを作成せずに1回限りの実行が送信されます。
    [Use pool] (プールを使用) Databricksプールを活用する場合はこのチェックボックスをオンにします。チェックボックスをオンにした場合は、[Cluster ID] (クラスターID)ではなく[Pool ID] (プールID)を指定する必要があります。また、[Use transient cluster] (一時クラスターを使用)チェックボックスをオンにする必要もあります。
    エンドポイント お使いのワークスペースのURLアドレスを入力します。
    [Cluster ID] (クラスターID) 使用するDatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。このプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。
    [Token] (トークン) Databricksユーザーアカウント用に生成された認証トークンです。
    [DBFS dependencies folder] (DBFS依存項目フォルダー) 実行時にジョブ関連の依存項目をDatabricksファイルシステムへ保存するために使うディレクトリーを入力します。このディレクトリーの最後にはスラッシュ( / )を付けます。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。
    プロジェクトID Databricksプロジェクトが存在するGoogle PlatformプロジェクトのIDを入力します。

    このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。

    [Bucket] (バケット) Google PlatformのDatabricksに使用するバケット名を入力します。

    このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。

    [Workspace ID] (ワークスペースID) databricks-workspaceidの形式に従って、Google PlatformワークスペースのIDを入力します。

    このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。

    [Google credentials] (Googleクレデンシャル) サービスアカウントキーが含まれているJSONファイルを保存するジョブサーバーマシン内のディレクトリーを入力します。

    このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。

    [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)) StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。
    [Cluster type] (クラスタータイプ) ドロップダウンリストで、使用したいクラスターのタイプを選択します。詳細は、Databricksクラスターについてをご覧ください。
    [Do not restart the cluster when submitting] (送信時にクラスターを再起動しない) Studioがジョブを送信する時にStudioがクラスターを再起動しないようにするには、このチェックボックスをオンにします。ただし、ジョブで変更を行う場合は、このチェックボックスをオフにして、Studioがクラスターを再起動してこれらの変更が考慮されるようにします。
  6. [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Studioが一時ファイル(転送するjarファイルなど)をローカルシステムに保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
  7. ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。[Checkpoint directory] (チェックポイントディレクトリー)フィールドのクラスターのファイルシステム内に、Sparkが保存するディレクトリー、計算のコンテキストデータ(メタデータやなど)、その計算から生成されたRDDを入力します。
  8. [Advanced properties] (詳細プロパティ)テーブルに、Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。

Results

これでDatabricksクラスターへの接続詳細が完全なものになったので、ジョブの実行をスケジュールしたり、クラスターからすぐに実行できます。