Elasticsearchでクリーンで重複除去済みのデータをインデックス化する

始める前に

ElasticsearchクラスターとElasticsearchヘッドは、ジョブ実行前に開始されます。

Elasticsearchクラスターを参照するためのプラグインであるElasticsearchヘッドの詳細は、https://mobz.github.io/elasticsearch-head/をご覧ください。

tMatchIndexコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
[Elasticsearch configuration] (Elasticsearch設定)エリアで、使用するElasticsearchシステムをホストするクラスターのロケーションを[Nodes] (ノード)フィールドに入力します。サンプル:

"localhost:9200"
Elasticsearch内に作成するインデックスを[Index] (インデックス)フィールドに入力します。サンプル:

education-agencies-chicago
[Index] (インデックス)フィールドで指定したElasticsearchインデックスをクリーン化する必要がある場合は、[Reset index] (インデックスのリセット)チェックボックスをオンにします。
ペアリングモデルファイルを取得するローカルフォルダーへのパスを、[Pairing model folder] (ペアリングモデルフォルダー)に入力します。
F6を押してジョブを保存し、実行します。

tMatchIndexによって、Elasticsearch内にeducation-agencies-chicagoインデックスが作成され、クリーンなデータが入力され、ブロッキングキーの値をベースに最適なサフィックスが計算されました。

プラグインのElasticsearchヘッドを使用して、tMatchIndexによって作成されたインデックスを参照できます。

これで、インデックスが作成されたデータをtMatchIndexPredictコンポーネントの参照データセットとして使用できるようになりました。

継続的マッチングを行う方法のサンプルは、tMatchIndexPredictを使用して継続的マッチングを行うをご覧ください。

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。