非構造化データからの住所を標準化する - Cloud - 8.0

Standardization

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、6つのコンポーネントを使って、Webサイトからコピーされた非構造化入力データの住所を標準化します。これは、データを、ジョブによって以前に生成されたインデックスに含まれているデータと照合することによって行われます。

インデックス作成の詳細は、tSynonymOutputをご覧ください。

以下のコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。

  • tFixedFlowInput: このコンポーネントは、住所が抽出される非構造化データを保持します。

  • tStandardizeRow: このコンポーネントは、住所ルールを定義し、定義されたタグを使ってXML形式で住所を生成します。これは、最初は構造化されていないデータを正規化および標準化するプロセスです。

  • tFilterColumns: このコンポーネントは、標準化された住所をフィルタリングします。

  • tExtractXMLField: このコンポーネントは、フォーマットされたカラムにすべての住所項目を出力するために、XMLツリーのAddressノードから属性を抽出します。

  • 2つのtLogRow: このコンポーネントは、出力データを表示するために使われます。最初のtLogRowは、エラーがあれば返します。2番目のtLogRowは、結果をコンソールに表示します。

このシナリオの複製を開始する前に、非構造化データをインデックスデータと照合するために、インデックスのコンテンツを取得する必要があります。インデックスのコンテンツは次のようになります。

左側にはパリのストリート名が、右側にはデータで使われているシノニムが表示されます。データは、Webサイトから収集されたアドレスデータを標準化するための参照として利用されます。

このシナリオを再現するには、次のセクションが示す手順に従います。