非構造化データからの住所を標準化する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、6つのコンポーネントを使って、Webサイトからコピーされた非構造化入力データの住所を標準化します。これは、データを、ジョブによって以前に生成されたインデックスに含まれているデータと照合することによって行われます。

インデックスの作成については、tSynonymOutputを参照してください。

以下のコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。

  • tFixedFlowInput: このコンポーネントは、住所が抽出される非構造化データを保持します。

  • tStandardizeRow: このコンポーネントは、住所ルールを定義し、定義されたタグを使ってXML形式で住所を生成します。これは、最初は構造化されていないデータを正規化および標準化するプロセスです。

  • tFilterColumns: このコンポーネントは、標準化された住所をフィルタリングします。

  • tExtractXMLField: このコンポーネントは、フォーマットされたカラムにすべての住所項目を出力するために、XMLツリーのAddressノードから属性を抽出します。

  • 2つのtLogRow: このコンポーネントは、出力データを表示するために使われます。最初のtLogRowは、エラーがあれば返します。2番目のtLogRowは、結果をコンソールに表示します。

このシナリオの複製を開始する前に、非構造化データをインデックスデータと照合するために、インデックスのコンテンツを取得する必要があります。インデックスのコンテンツは次のようになります。

左側にはパリのストリート名が、右側にはデータで使われている同義語が表示されます。データは、対象のWebサイト(たとえば、http://paris.conciergerie.com/travel_paris/address.php)から収集された住所データを標準化するための参照として使われます。

このシナリオを再現するには、次のセクションが示す手順に従います。