tStandardizeRow MapReduceプロパティ(非推奨) - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このプロパティはMapReduceジョブフレームワークで実行されているtStandardizeRowを設定するために使います。

MapReduce tStandardizeRowコンポーネントはデータクオリティファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで使用できます。

MapReduceのフレームワークは、Talend 7.3以降非推奨となります。Apache SparkのTalendジョブを使って、統合タスクを実行します。

基本設定

[Schema] (スキーマ)および[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Column to parse] (解析するカラム)

受信したデータフローから解析するカラムを選択します

[Standardize this field] (このフィールドを標準化)

識別されるルール準拠データを標準化するには、このチェックボックスをオンにします。つまり、識別されたデータの重複を、特定のインデックスからの対応する標準化されたデータに置き換えます。

標準化されたデータを提供するこのインデックスの詳細は、tSynonymOutputを参照してください。

このチェックボックスをオンまたはオフにするたびにこのコンポーネントのスキーマが自動的に変更されるため、特定のジョブで、アクティブ化された[Sync columns] (カラムの同期)ボタンをクリックして、スキーマの不整合を修正する必要があります。

[Generate parser code in Routines] (ルーチンでパーサーコードを生成する)

このボタンをクリックすると、Studioのデータパーサーが[Conversion rules] (変換ルール)テーブルで定義されたルールを認識できるようになります。

特定のジョブで、ルールが作成された時、この操作はこのルールの実行に必要です。他方、ユーザーが変更した既存のルールに対するものである場合、この操作は、変更されたルールのタイプが[Enumeration] (列挙)[Format] (フォーマット)、または[Combination] (組み合わせ)の場合にのみ必要です。すべてのルールタイプの詳細は、ルールのタイプを参照してください。

and

インポートまたはエクスポートボタンをクリックして、特定の標準化ルールセットを[DQ Repository] (DQリポジトリー)と交換します。

-エクスポートボタンをクリックすると、Studioが Profiling パースペクティブに切り替わり、[Parser rule Settings] (パーサールールの設定)ビューがワークスペースで開き、関連するコンテンツが自動的に入力されます。その後、必要に応じて、エクスポートされたルールセットを編集して、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rules] (ルール) > [Parser] (パーサー)に保存できます。

-インポートボタンをクリックすると、インポートウィザードが開き、目的の標準化ルールをインポートできます。

詳細は、 Talend Studioユーザーガイドを参照してください。

[Conversion rules] (変換ルール)

適用する必要があるルールを次のように定義します。

-[Name] (名前)カラムに、使うルールの名前を入力します。この名前は、XMLタグまたはJSON属性名として、また、このルールで識別される受信データにラベルを付けるためのトークン名と使われます。

-[Type] (タイプ)カラムで、適用する必要のあるルールのタイプを選択します。利用可能なルールタイプの詳細は、ルールのタイプを参照してください。

-[Value] (値)カラムに、ルールの構文を入力します。

-[Search mode] (検索モード)カラムで、リストから検索モードを選択します。検索モードは、[Index] (インデックス)ルールタイプでのみ使えます。利用可能な検索モードの詳細は、 インデックスルールの検索モードを参照してください。

このコンポーネントを Talend Map/Reduceジョブで使う場合は、セクションルールのタイプに記載されている[Index] (インデックス)ルールの前提条件を覚えておいてください。

目的のパーサー規則を作成するのに役立つテストビューが提供されています。詳細は、 Talend Studioユーザーガイドを参照してください。

詳細設定

[Advanced options for INDEX rules] (インデックスルールの詳細オプション)

- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。

- [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定します。デフォルト値は1です。

- [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注:

以前のリリースからStudioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

Output format (出力形式)

-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。

-JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。

出力フローは常に1つのフローに書き込まれます。

[Global Variables] (グローバル変数)

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

このコンポーネントは、リポジトリーツリービューのルーチンノードにコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。

Talend  Map/Reduceジョブでは、このコンポーネントは中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Talend Map/Reduceジョブの詳細は、『 Talend Open Studio for Big Data入門ガイド 』の Talend Map/Reduceジョブを作成、変換、設定する方法の項目を参照してください。

本書では、特に明記されていない限り、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続に関する詳細は、『 Talend Studioユーザーガイド』を参照してください。