結合操作の設定 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio
入力側では、適切なテーブルのボタンをクリックすると、結合オプションの設定を行うパネルが表示されます。

ルックアッププロパティ

Join Model

Inner Join

Left Outer Join

Right Outer Join

Full Outer Join

結合オプションのデフォルトは、Left Outer Joinです。これは、このオプション設定パネルを表示していないときの状態です。これらのオプションは、2つまたはそれ以上のフローを共通のフィールド値で結合します。

複数のルックアップテーブルを結合しなければならない場合は、メインの入力フローが1つ目のルックアップフローから結合を開始し、その結果に基づいて残りのフローを順に結合していきます。

Join Optimization

None

Replicated

Skewed

Merge

結合オプションのデフォルトは、Noneです。これは、このオプション設定パネルを表示していないときの状態です。これらのオプションは、より効果的な結合操作を行う場合に使用します。たとえば、複数のReduceタスクの並列処理を使用するときは、処理するデータにかなりのずれが生じている場合に、Skewed結合を使って負荷分散の問題を是正します。

これらのオプションはいずれも、Apacheのドキュメンテーションで説明しているPig Latinに関する制約を受けます。

Custom Partitioner

中間のマップ出力のキーのパーティションを制御するためのHadoopパーティショナーを入力します。たとえば、二重引用符の間に以下を入力します。
org.apache.pig.test.utils.SimpleCustomPartitioner
これはパーティショナーSimpleCustomPartitionerを使用するために入力します。 このパーティショナーのjarファイルは、Register jarテーブルに登録されている必要があります。このテーブルは、tPigLoad[Advanced settings] (詳細設定)ビューで、使用するtPigMapコンポーネントにリンクされています。

このSimpleCustomPartitionerのコードについて詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照して下さい。

Increase Parallelism

Pigが生成したHadoopのMapReduceタスクのうちの、Reduceタスクの数を入力します。Reduceタスクの並列処理について詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照して下さい。