オプションのマップ設定 - 7.2

Pig

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig
入力側:

ルックアッププロパティ

Join Model

Inner Join

Left Outer Join

Right Outer Join

Full Outer Join

結合オプションのデフォルトは、Left Outer Joinです。これは、このオプション設定パネルを表示していない時の状態です。これらのオプションは、2つまたはそれ以上のフローを共通のフィールド値で結合します。

複数のルックアップテーブルを結合しなければならない場合は、メインの入力フローが1番目のルックアップフローから結合を開始し、その結果に基づいて残りのフローを順に結合していきます。

Join Optimization

None

Replicated

Skewed

マージ.

結合オプションのデフォルトは、Noneです。これは、このオプション設定パネルを表示していない時の状態です。これらのオプションは、より効果的な結合操作を行う場合に使用します。たとえば、複数のReduceタスクの並列処理を使用する時は、処理するデータにかなりのずれが生じている場合に、Skewed結合を使って負荷分散の問題を是正します。

これらのオプションはいずれも、Apacheのドキュメンテーションで説明しているPig Latinに関する制約を受けます。

Custom Partitioner

中間のマップ出力のキーのパーティションを制御するためのHadoopパーティショナーを入力します。たとえば、二重引用符の間に以下を入力します。
org.apache.pig.test.utils.SimpleCustomPartitioner
これはパーティショナーSimpleCustomPartitionerを使用するために入力します。

このSimpleCustomPartitionerのコードについて詳しくは、Pig Latinに関するApacheのドキュメンテーションを参照してください。このパーティショナーのjarファイルはRegister jarテーブルに登録されている必要があります。このテーブルは、tPigLoad[Advanced settings] (詳細設定)ビューで、使用するtPigMapコンポーネントにリンクされています。

Increase Parallelism

Reduceタスク数を入力します。Reduceタスクの並列機能の詳細は、Pig Latinに関するApacheのドキュメンテーションを参照してください。

出力側:

出力プロパティ

Catch Output Reject

True

False

このオプションをアクティブにすると、該当するエリアで定義可能であるフィルターによってリジェクトされたレコードを捕捉できます。

Catch Lookup Inner Join Reject

True

False

このオプションをアクティブにすると、入力フローで実行した内部結合操作で、リジェクトされたレコードを捕捉できます。