インデックスルールの検索モード - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

tStandardizeRowコンポーネントで使われる詳細ルールの1つのタイプは、[Index] (インデックス)ルールです。[Index] (インデックス)ルールは、シノニムインデックスを参照として使って、一致データを検索します。

入力フローで使う一致のタイプ(完全一致、部分一致、ファジーなど)を指定する可能性がない[Index] (インデックス)ルールを使うと、期待するデータが標準化および出力されません。tStandardizeRowを使うと、コンポーネントで定義する[Index] (インデックス)ルールごとに、次の検索モードのいずれかを選択できます。

検索モード

説明

すべて一致

入力文字列の各単語はインデックス文字列に存在する必要がありますが、インデックス文字列には他の単語が含まれている場合もあります。

すべてのファジーを一致

入力文字列の各単語は、インデックス文字列の類似の単語と一致する必要があります。

任意の一致

入力文字列には、インデックス文字列の単語と一致する単語が少なくとも1つ必要です。

任意のファジーを一致

入力文字列には、インデックス文字列の単語と類似する単語が少なくとも1つ必要です。

完全一致

正確な入力文字列が、正確なインデックス文字列と一致する必要があります。

部分一致

入力文字列の各単語はインデックス文字列に存在する必要がありますが、入力文字列には特定の限度まで他の単語も含めることができます。デフォルトは1語です。これは、入力文字列の1つの単語がインデックス文字列のどの単語とも一致しない可能性があることを意味します

たとえば、入力フローに次のレコードがあるとします。
DULUX PAINTPOD EXTRA REACH HANDLE

そして、文字列Extra Deep Baseを持つカラーインデックスを作成しました。

tStandardizeRow[Index] (インデックス)ルールを定義し、検索モードを Match anyに設定すると、インデックス文字列に一致するExtra単語があるため、コンポーネントは上記のレコードの色としてExtra Deep Baseを返します。ただし、インデックスで完全に一致する検索文字列が見つかった場合にのみコンポーネントが一致を返すようにするには、ルールの検索モードをMatch exactに設定します。この場合、コンポーネントはレコードの色を返しません。

ジョブの例については、インデックスルールを使って完全一致を抽出するを参照してください。