このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。
このシナリオでは、6つのコンポーネントを使って、Webサイトからコピーされた非構造化入力データの住所を標準化します。これは、データを、ジョブによって以前に生成されたインデックスに含まれているデータと照合することによって行われます。
インデックスの作成については、tSynonymOutputを参照してください。
以下のコンポーネントを[Palette] (パレット)からデザインワークスペースにドロップします。
-
tFixedFlowInput: このコンポーネントは、住所が抽出される非構造化データを保持します。
-
tStandardizeRow: このコンポーネントは、住所ルールを定義し、定義されたタグを使ってXML形式で住所を生成します。これは、最初は構造化されていないデータを正規化および標準化するプロセスです。
-
tFilterColumns: このコンポーネントは、標準化された住所をフィルタリングします。
-
tExtractXMLField: このコンポーネントは、フォーマットされたカラムにすべての住所項目を出力するために、XMLツリーのAddressノードから属性を抽出します。
-
2つのtLogRow: このコンポーネントは、出力データを表示するために使われます。最初のtLogRowは、エラーがあれば返します。2番目のtLogRowは、結果をコンソールに表示します。
このシナリオの複製を開始する前に、非構造化データをインデックスデータと照合するために、インデックスのコンテンツを取得する必要があります。インデックスのコンテンツは次のようになります。
左側にはパリのストリート名が、右側にはデータで使われている同義語が表示されます。データは、対象のWebサイト(たとえば、http://paris.conciergerie.com/travel_paris/address.php)から収集された住所データを標準化するための参照として使われます。
このシナリオを再現するには、次のセクションが示す手順に従います。