都市名のシノニムインデックスを作成する - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
Last publication date
2024-02-28

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、コンポーネント3つのジョブにより、企業のクライアントデータで使われる都市のシノニムへの参照を提供する、標準化された都市名のインデックスが作成されます。

このインデックスを作成するには、都市名とそれに対応するシノニムを提供するソースファイルが必要です。このシナリオでは.csvファイルであり、コンテンツは次のとおりです。

CityName;Synonyms
North Reading;Redding|North Reading|N. Reading|N Reading|N Redding|NR
Young America;YA|Young America
Dedham;Dedham|dedham|deadham
New York;NY|New York

このファイルには2つのカラムがあります。

  • 左側は、参照データとして標準の都市名を保持するCityNameカラムです。

  • 右のカラムはSynonymsカラムで、この企業のクライアントデータ全体で収集されたさまざまなシノニムが含まれています。

このジョブで使う3つのコンポーネントは、以下のとおりです。

  • tFileInputDelimited: このコンポーネントは、ソースファイルからデータをロードし、tSynonymOutputに入力します。

  • tSynonymOutput: このコンポーネントは、このシナリオにおける目的のインデックスを作成し、ソースファイルで指定されたシノニムを使ってそれをフィードします。

  • tLogRow: このコンポーネントは、新しく作成されたインデックスに挿入されたデータをリスト表示します。