インデックスルールの検索モード - Cloud - 8.0

Standardization

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化
Last publication date
2024-02-28

tStandardizeRowコンポーネントで使われる詳細ルールの1つのタイプは、[Index] (インデックス)ルールです。[Index] (インデックス)ルールは、シノニムインデックスを参照として使って、一致データを検索します。

入力フローで使う一致のタイプ(完全一致、部分一致、ファジーなど)を指定する可能性がない[Index] (インデックス)ルールを使うと、期待するデータが標準化および出力されません。tStandardizeRowを使うと、コンポーネントで定義する[Index] (インデックス)ルールごとに、次の検索モードのいずれかを選択できます。

検索モード

説明

すべて一致

入力文字列の各単語はインデックス文字列に存在する必要がありますが、インデックス文字列には他の単語が含まれている場合もあります。

すべてのファジーを一致

入力文字列の各単語は、インデックス文字列の類似の単語と一致する必要があります。

任意の一致

入力文字列には、インデックス文字列の単語と一致する単語が少なくとも1つ必要です。

任意のファジーを一致

入力文字列には、インデックス文字列の単語と類似する単語が少なくとも1つ必要です。

完全一致

正確な入力文字列が、正確なインデックス文字列と一致する必要があります。

部分一致

入力文字列の各単語はインデックス文字列に存在する必要がありますが、入力文字列には特定の限度まで他の単語も含めることができます。デフォルトは1語です。これは、入力文字列の1つの単語がインデックス文字列のどの単語とも一致しない可能性があることを意味します。

たとえば次のような状況を考えてみましょう。
  • 入力フローに次のレコードがあります。
    DULUX PAINTPOD EXTRA REACH HANDLE
  • Extra Deep Baseという文字列を持つカラーインデックスを作成済みです。

tStandardizeRow[Index] (インデックス)ルールを定義し、検索モードを Match anyに設定すると、インデックス文字列に一致するExtra単語があるため、コンポーネントは上記のレコードの色としてExtra Deep Baseを返します。インデックスで完全に一致する検索文字列が見つかった場合のみコンポーネントが一致を返すようにするには、ルールの検索モードをMatch exactに設定します。この場合、コンポーネントはレコードの色を返しません。

ジョブの例については、インデックスルールを使って完全一致を抽出するをご覧ください。