tPigJoin標準プロパティ - 7.2

Pig

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig

このプロパティは[Standard] (標準)ジョブフレームワークで実行するtPigJoinの設定で使用されます。

Standard tPigJoinコンポーネントはビッグデータファミリーおよび変換処理ファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

注:

このコンポーネントが動作するには、2つのスキーマを設定する必要があります(スキーマのメインフローとスキーマのルックアップフロー)。メインスキーマの出力部分では、メイン入力ファイルのカラムをルックアップファイルのと手動で連結する必要があります。

 

[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。関連トピック: Talend Studioユーザーガイドをご覧ください。

 

[Repository] (リポジトリー): 既存のスキーマがリポジトリーに保管されているので、さまざまなプロジェクトやジョブデザインで再利用できます。関連項目:Talend Studioユーザーガイドを参照してください。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

注:

このコンポーネントが動作するには、2つのスキーマを設定する必要があります(スキーマのメインフローとスキーマのルックアップフロー)。メインスキーマの出力部分では、メイン入力ファイルのカラムをルックアップファイルのと手動で連結する必要があります。

 

[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。関連トピック: Talend Studioユーザーガイドをご覧ください。

 

[Repository] (リポジトリー): 既存のスキーマがリポジトリーに保管されているので、さまざまなプロジェクトやジョブデザインで再利用できます。関連項目:Talend Studioユーザーガイドを参照してください。

[Filename] (ファイル名)

[Lookup file] (ルックアップファイル)のパスを入力します。

[Field Separator] (フィールド区切り)

転送されたデータのフィールドを区切るために、文字、文字列、または正規表現を入力します。

[Join key] (結合キー)

[+]ボタンをクリックし、行を追加して、[Input file] (入力ファイル)[Lookup file] (ルックアップファイル)[Join key] (結合キー)を設定します。

[Join mode] (結合モード)

リストから結合モードを選択します。

[inner-join]: このモードを選択して、結合キーに基づいて2つ以上の関係の内部結合を実行します。

[left-outer-join]: このモードを選択して、結合キーに基づいて2つ以上の関係の左外部結合を実行します。

[right-outer-join]: このモードを選択して、結合キーに基づいて2つ以上の関係の右外部結合を実行します。

[full-outer-join]: このモードを選択して、左外部結合と右外部結合の両方を適用する効果を重ねます。

内部Joinと外部Joinに関する詳細は、以下をご覧ください:

http://en.wikipedia.org/wiki/Join_%28SQL%29

詳細設定

[Optimize the join] (Joinの最適化)

このチェックボックスを選択して、[REPLICATED]結合、[SKEWED]結合、[MERGE]結合を使って、結合のパフォーマンスを最適化します。最適化されたJoinに関する詳細は、

https://pig.apache.org/docs/latest/basic.htmlをご覧ください。

[Use partitioner] (パーティショナーを使用)

このチェックボックスを選択して、中間のマップ出力のキーのパーティションを制御するHadoopパーティショナーを指定します。Hadoopパーティショナーの使用に関する詳細は、以下をご覧ください:

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/Partitioner.html

[Increase Parallelism] (並列処理を増加)

このチェックボックスを選択して、[MapReduce]ジョブのReduceタスク数を設定します。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細については、 Talend Studio ユーザーガイドを参照してください。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは一般的に、入力コンポーネントおよび出力コンポーネントと共に中間ステップとして使用されます。

前提条件

Talend Studioとの操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずStudioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあるとされています。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照してください。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定します。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがStudioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをStudioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。

制限事項

Pigスクリプトの知識が必要です。