このプロパティは[Standard] (標準)ジョブフレームワークで実行するtPigDistinctの設定で使用されます。
Standard tPigDistinctコンポーネントはビッグデータファミリーおよび変換処理ファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで利用できます。
基本設定
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。
|
|
[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。関連トピック: Talend Studioユーザーガイドをご覧ください。 |
|
[Repository] (リポジトリー): 既存のスキーマがリポジトリーに保管されているので、さまざまなプロジェクトやジョブデザインで再利用できます。関連項目:Talend Studioユーザーガイドを参照してください。 |
詳細設定
[Increase Parallelism] (並列処理を増加) |
このチェックボックスを選択して、[MapReduce]ジョブのReduceタスク数を設定します。 |
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
グローバル変数
[Global Variables] (グローバル変数) |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。 Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、 Talend Studio ユーザーガイドを参照してください。 |
使用方法
[Usage rule] (使用ルール) |
このコンポーネントは一般的に、入力コンポーネントおよび出力コンポーネントと共に中間ステップとして使用されます。 警告:
このコンポーネントによって、入力ファイル内の元の順序を保守できません。 |
前提条件 |
Talend Studioとの操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。
Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。 |
制限事項 |
Pigスクリプトの知識が必要です。 |