インデックスルールを使って完全一致を抽出する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、入力フローをインデックスに含まれるデータと照合することにより、顧客製品の一部の長い説明を標準化します。このシナリオでは、[Index] (インデックス)ルールを使って製品データをトークン化し、各トークンをインデックスと照合して完全一致を抽出する方法について説明します。

このシナリオでは、tSynonymOutputコンポーネントでジョブを使ってインデックスを最初に作成する必要があります。顧客製品のブランド、範囲、色、および単位のインデックスを作成する必要があります。tSynonymOutputコンポーネントを使ってインデックスを生成し、それらにエントリとシノニムをフィードします。以下のキャプチャーは、ジョブの例を示しています。

以下は、このシナリオ用に生成されたインデックスのサンプルです。

生成された各インデックスには、1つのカラムに文字列(単語のシーケンス)があり、2番目のカラムに対応する同義語があります。これらの文字列は、 tFixedFlowInputによって生成された製品データが照合される参照データとして使用されます。インデックスの作成については、tSynonymOutputを参照してください。

このシナリオでは、生成されたインデックスはコンテキスト変数として定義されます。コンテキスト変数の詳細は、 Talend Studioユーザーガイドを参照してください。