tExtractDelimitedFields MapReduceプロパティ(非推奨) - 7.3

処理(インテグレーション)

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント
データガバナンス > サードパーティーシステム > 変換処理コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント

これらのプロパティを使って、MapReduceジョブフレームワーク内で実行されているtExtractDelimitedFieldsを設定します。

MapReduce tExtractDelimitedFieldsコンポーネントは変換処理ファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで使用できます。

MapReduceのフレームワークは、Talend 7.3以降非推奨となります。Apache SparkのTalendジョブを使って、統合タスクを実行します。

基本設定

[Schema] (スキーマ)および[Edit Schema] (スキーマを編集) (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。
注: 変更を加えると、スキーマは自動的に組み込みになります。
 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

Prev.Comp.Columnリスト

データの抽出に必要なカラムを選択します。

Die on error (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。

[Field separator] (フィールド区切り)

転送されたデータのフィールドを区切る場合は、文字、文字列、正規表現のいずれかを入力します。

CSV options (CSVオプション)

このチェックボックスをオンにすると、[Escape char] (エスケープ文字)[Text enclosure] (テキストエンクロージャー)などCSV固有のパラメーターが含まれます。
重要: Sparkのバージョン2.0以降では特殊文字をエスケープする必要があるため、"\"""""\\""\""となります。

詳細設定

[Custom Encoding] (カスタムエンコーディング)

保管データを処理する際、エンコーディングの問題が発生することがあります。このような場合は、チェックボックスをオンにして[Encoding] (エンコーディング)リストを表示します。

次に、リストから使用するエンコーディングを選択するか、[Custom] (カスタム)を選択して手動で定義します。

[Advanced separator (for number)] (高度な区切り文字:数値)

数値に使用する区切り記号を変更するには、このチェックボックスをオンにします。デフォルトでは、桁区切り記号はコンマ(,)で、小数点区切り記号はピリオド(.)です。

[Trim all column] (すべてのカラムのトリミング)

このチェックボックスをオンにすると、先行ホワイトスペースおよび後続ホワイトスペースがすべてのカラムから削除されます。このチェックボックスをオフにすると、[Check column to trim] (トリミングするカラムの確認)テーブルが表示され、トリミングする特定のカラムを選択できます。

[Check columns to trim] (トリミングするカラムのチェック)

このテーブルは使用されているスキーマで自動入力されます。トリミングするカラムに対応するチェックボックスをオンにします。

[Check each row structure against schema] (スキーマに対する各行構造のチェック)

このチェックボックスをオンにすると、各行のカラム総数がスキーマと一致するかどうかチェックされます。一致しない場合、コンソール上にエラーメッセージが表示されます。

[Check date] (日付の確認)

このチェックボックスをオンにすると、日付形式が入力スキーマに対して厳密にチェックされます。

[Decode String for long, int, short, byte Types] (long、int、short、byte型の文字列をデコード)

16進数文字列または8進数文字列を数値データ型(long、integer、short、またはbyte)に解析する場合は、このチェックボックスをオンにします。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

[Usage rule] (使用ルール)

Talend  Map/Reduceジョブでは、このコンポーネントは中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Map/Reduceジョブがワークスペースで開かれると、tExtractDelimitedFieldsとMapReduceファミリがStudioの[Palette] (パレット)に表示されます。

本書では、特に明記されていない限り、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。

[Hadoop Connection] (Hadoop接続)

[Run] (実行)ビューの[Hadoop Configuration] (Hadoop設定)タブを使用して、ジョブ全体で特定のHadoopディストリビューションに対する接続を定義する必要があります。

この接続は、ジョブごとに有効になります。