tMapを使って人物名のシノニムインデックスを作成する - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、4つのコンポーネントからなるジョブが、人物の名前とその相対的なニックネームを保管するインデックスを作成します。

このシナリオで使うソースデータは.csvファイルに保存されます。その抜粋を以下に示します。

Country;FirstName;Nickname1;Nickname2;Nickname3;Nickname4
France;Anne;Ninon;Annie;Ninette;Ann
France;Bernadette;Nad;Netty;Dadette
France;Albert;Al
France;Alexandre;Alex
France;Alfred-Hubert;Alu
France;Andrew;Andy
France;Anthony;Anton;Tony;Tonio
France;Artus;Artie
France;Benoit;Ben
France;Catherine;Cate;Katherine;Kathryn
France;Charles;Charlie;Charlot;Chuck
France;Christophe;Christian;Chris;Kris;Kristof
France;Christian;Chris

このデータは、人々の母国(インデックスに挿入されない)、名(参照エントリー)、および頻繁に使われるニックネーム(シノニム)を示します。

このジョブで使う4つのコンポーネントは以下のとおりです。

  • tFileInputDelimited: このコンポーネントはソースデータを読み込み、tSynonymOutputに入力します。

  • tMap: このコンポーネントは、元のデータを名とニックネームを表す2つの分離されたカラムに変換するために使います。他方、人々の母国情報は無視されます。

  • tSynonymOutput: このコンポーネントは、このシナリオにおける目的のインデックスを作成し、ソースファイルで指定されたシノニムを使ってそれをフィードします。

  • tLogRow: このコンポーネントは、新しく作成されたインデックスに挿入されたデータをリスト表示します。