tStandardizeRow MapReduceプロパティ(非推奨)

これらのプロパティは、MapReduceジョブのフレームワークで実行されているtStandardizeRowを設定するために使われます。

MapReduce tStandardizeRowコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。

MapReduceのフレームワークは、Talend 7.3以降非推奨となります。Apache SparkのTalendジョブを使って、インテグレーションタスクを実行します。

基本設定

[Schema] (スキーマ)および[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。
	[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。
	[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Column to parse] (解析するカラム)	受信したデータフローから解析するカラムを選択します
[Standardize this field] (このフィールドを標準化)	識別されるルール準拠データを標準化するには、このチェックボックスをオンにします。つまり、識別されたデータの重複を、特定のインデックスからの対応する標準化されたデータに置き換えます。標準化されたデータを提供するこのインデックスの詳細は、tSynonymOutputをご覧ください。このチェックボックスをオンまたはオフにするたびにこのコンポーネントのスキーマが自動的に変更されるため、特定のジョブで、アクティブ化された[Sync columns] (カラムを同期)ボタンをクリックして、スキーマの不整合を修正する必要があります。
[Generate parser code in Routines] (ルーチンでパーサーコードを生成する)	このボタンをクリックすると、Studioのデータパーサーが[Conversion rules] (変換ルール)テーブルで定義されたルールを認識できるようになります。特定のジョブで、ルールが作成された時、この操作はこのルールの実行に必要です。他方、ユーザーが変更した既存のルールに対するものである場合、この操作は、変更されたルールのタイプが[Enumeration] (列挙)、[Format] (フォーマット)、または[Combination] (組み合わせ)の場合にのみ必要です。すべてのルールタイプの詳細は、ルールのタイプをご覧ください。
and	インポートまたはエクスポートボタンをクリックして、特定の標準化ルールセットを[DQ Repository] (DQリポジトリー)と交換します。 - エクスポートボタンをクリックすると、Studioが Profiling パースペクティブに切り替わり、[Parser rule Settings] (パーサールールの設定)ビューがワークスペースで開き、関連するコンテンツが自動的に入力されます。その後、必要に応じて、エクスポートされたルールセットを編集して、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rules] (ルール) > [Parser] (パーサー)に保存できます。 - インポートボタンをクリックすると、インポートウィザードが開き、目的の標準化ルールをインポートできます。詳細は、 Studio Talendユーザーガイドをご覧ください。
[Conversion rules] (変換ルール)	適用する必要があるルールを次のように定義します。 -[Name] (名前)カラムに、使うルールの名前を入力します。この名前は、XMLタグまたはJSON属性名として、また、このルールで識別される受信データにラベルを付けるためのトークン名と使われます。 -[Type] (タイプ)カラムで、適用する必要のあるルールのタイプを選択します。利用可能なルールタイプの詳細は、ルールのタイプをご覧ください。 -[Value] (値)カラムに、ルールの構文を入力します。 -[Search mode] (検索モード)カラムで、リストから検索モードを選択します。検索モードは、[Index] (インデックス)ルールタイプでのみ使用できます。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。このコンポーネントを Talend Map/Reduceジョブで使う場合は、セクションルールのタイプに記載されている[Index] (インデックス)ルールの前提条件を覚えておいてください。目的のパーサー規則を作成するのに役立つテストビューが提供されています。詳細は、 Studio Talendユーザーガイドをご覧ください。

詳細設定

[Advanced options for INDEX rules] (インデックスルールの詳細オプション)	- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。 - [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定するために使われます。デフォルト値は1です。 - [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。 [Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。情報メモ注: 以前のリリースからStudioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)が[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。
Output format (出力形式)	-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。 -JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。出力フローは常に1つのフローに書き込まれます。

[Advanced options for INDEX rules] (インデックスルールの詳細オプション)

- [Search UNDEFINED fields] (未定義フィールドを検索): コンポーネントを使ってインデックス実行結果内で未定義のトークンを検索する場合は、このチェックボックスをオンにします。

- [Word distance for partial match] (部分一致の単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数を設定するために使われます。デフォルト値は1です。

- [Max edits for fuzzy match] (ファジーマッチングの最大編集数) (レーベンシュタインアルゴリズムに基づいており、あいまいモードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。各一致のスコアは、その用語の編集距離に基づいています。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注:

以前のリリースからStudioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)が[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

Output format (出力形式)

-XML: このオプションはデフォルトで選択されています。正規化されたデータをXML形式で出力します。

-JSON: このオプションを選択すると、正規化されたデータがJSON形式で出力されます。

出力フローは常に1つのフローに書き込まれます。

[Global Variables] (グローバル変数)

グローバル変数	ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。変数の詳細は、Studio Talendユーザーガイドをご覧ください。

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Studio Talendユーザーガイドをご覧ください。

使用方法

使用ルール	このコンポーネントは、リポジトリーツリービューのルーチンノードにコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。 Talend Map/Reduceジョブでは、このコンポーネントは、中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceのコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。 Talend Map/Reduceジョブの詳細は、Talend Big Data入門ガイドでTalend Map/Reduceジョブを作成、変換、設定する方法のセクションをご覧ください。本書では、特に明記されていない限り、標準ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。
[Connections] (接続)	外部リンク(このコンポーネントから別のコンポーネントへのリンク): [Row] (行): メイン、リジェクト [Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。受信リンク(あるコンポーネントからこのコンポーネントへのリンク): [Row] (行): メイン、リジェクト接続の詳細は、Studio Talendユーザーガイドをご覧ください。

使用ルール

このコンポーネントは、リポジトリーツリービューのルーチンノードにコードを生成します。このコードは、ルールで定義された文法を実装します。コンポーネントによって使われるように自動的にコンパイルされます。ルールを変更/追加/削除する場合は、ジョブが変更を考慮に入れて実行可能になるように、コードを再度生成する必要があります。これを生成するには、[Generate parser code in Routines] (ルーチンでのパーサーコードの生成)ボタンをクリックします。

Talend Map/Reduceジョブでは、このコンポーネントは、中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceのコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Talend Map/Reduceジョブの詳細は、Talend Big Data入門ガイドでTalend Map/Reduceジョブを作成、変換、設定する方法のセクションをご覧ください。

本書では、特に明記されていない限り、標準ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続の詳細は、Studio Talendユーザーガイドをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください