Apache Spark BatchのtMap プロパティ - Cloud

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtMapを設定するために使われます。

Spark BatchのtMapコンポーネントは、変換処理ファミリーに属しています。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Map Editor] (マップエディター)	これにより、tMapルーティングと変換プロパティを定義できます。ただし、Spark Batchジョブでサポートされているのは[Load once] (一括ロード)ルックアップモデルのみです。この[Load once] (一括ロード)ルックアップモデルの詳細は、ルックアップを処理の関連する説明をご覧ください。入力エリア上部の[Property Settings] (プロパティ設定)ボタンをクリックすると、[Property Settings] (プロパティ設定)ダイアログボックスが表示され、そこで以下のパラメーターを設定できます。実行エラーを処理しない場合は、[Die on error] (エラー発生時に強制終了)チェックボックスをオンにします(デフォルトで選択されています)。エラーが発生するとジョブが強制終了されます。大量のデータを使用して複数のルックアップ入力フローを処理するジョブでデータ変換のパフォーマンスを最大化するには、[Lookup in parallel] (並列ルックアップ)チェックボックスをオンにします。 [Temp data directory path] (一次データディレクトリーパス): ルックアップローディングのために生成された一時データを保存するパスを入力します。このフォルダーの詳細は、tMapの使用におけるメモリ制限問題を解決をご覧ください。 [Max buffer size (nb of rows)] (最大バッファーサイズ - 行数): 処理されたデータに割り当てる物理メモリのサイズを行数で入力します。
リンクのマッピングはのように表示されます	[Auto] (自動): デフォルト設定は曲線リンクです。 [Curves] (曲線): マッピングが曲線で表示されます。 [Lines] (直線): マッピングが直線で表示されます。最後のオプションを選ぶと多少パフォーマンスが良くなります。
[Preview] (プレビュー)	プレビューはMapperデータのインスタントショットです。これは、Mapperプロパティにデータが入力されると使用可能になります。プレビューの同期は変更を保存した後にのみ有効です。
[Use replicated join] (反復結合を使用)	複数の入力フロー間で反復結合を行うには、このチェックボックスをオンにします。このタイプの結合は、各ルックアップテーブルをメモリ内に複製することで、シャッフルとソートの追加手順を必要としないため、プロセス全体が高速化されます。ルックアップテーブル全体がメモリに入ることを確認する必要があります。
[Max buffer size (nb of rows)] (最大バッファーサイズ:行数)	処理されたデータに割り当てる物理メモリのサイズ(行数)を入力します。

使用方法

使用ルール	このコンポーネントは中間ステップとして使用されます。このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。