結合オペレーションの設定 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

入力側では、適切なテーブルの ボタンをクリックすると、結合オプションの設定を行うパネルが表示されます。

ルックアッププロパティ

Join Model

  • Inner Join

  • Left Outer Join

  • Right Outer Join

  • Full Outer Join

結合オプションのデフォルトは、Left Outer Joinです。これは、このオプション設定パネルを表示していないときの状態です。これらのオプションは、2つまたはそれ以上のフローを共通のフィールド値で結合します。

複数のルックアップテーブルを結合しなければならない場合は、メインの入力フローが1つ目のルックアップフローから結合を開始し、その結果に基づいて残りのフローを順に結合していきます。

Join Optimization

  • [None] (なし)

  • Replicated

  • Skewed

  • マージ.

結合オプションのデフォルトは、Noneです。これは、このオプション設定パネルを表示していないときの状態です。これらのオプションは、より効果的な結合操作を行う場合に使用します。たとえば、複数のReduceタスクの並列処理を使用するときは、処理するデータにかなりのずれが生じている場合に、Skewed結合を使って負荷分散の問題を是正します。

これらのオプションはいずれも、Apacheのドキュメンテーションで説明しているPig Latinに関する制約を受けます。

Custom Partitioner

中間のマップ出力のキーのパーティションを制御するためのHadoopパーティショナーを入力します。たとえば、二重引用符の間に以下を入力します。
org.apache.pig.test.utils.SimpleCustomPartitioner
これはパーティショナーSimpleCustomPartitionerを使用するために入力します。このパーティショナーのjarファイルはRegister jarテーブルに登録されている必要があります。このテーブルは、tPigLoad[Advanced settings] (詳細設定)ビューで、使用するtPigMapコンポーネントにリンクされています。

このSimpleCustomPartitionerのコードについて詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照して下さい。

Increase Parallelism

Pigが生成したHadoopのMapReduceタスクのうちの、Reduceタスクの数を入力します。Reduceタスクの並列処理について詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照して下さい。