Elasticsearchで参照データセットをインデックス化する
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
このジョブでは、tMatchIndexコンポーネントによりElasticsearchのインデックスが作成され、シカゴの教育センターのリストを含むクリーンで重複除去されたデータセットが入力されます。
シカゴの教育センターのリストを含むデータセットですべてのマッチング操作を実行した後は、同じスキーマを持つ新しいデータレコードを取得する際にマッチングプロセスを最初から実行する必要はありません。tMatchIndexコンポーネントを使用すると、継続的にマッチングを行う目的で、このElasticsearchのクリーンなデータセットのインデックスを作成できます。
Elasticsearchで参照データセットのインデックス化を行う前に以下のようにします:
-
tMatchPairingを使用してペアリングモデルを生成します。
詳細は、サスペクトペアを計算し、サンプルをTalend Data Stewardshipに書き込むとソースデータの疑わしいペアと疑わしいサンプルを計算をご覧ください。
-
インデックスを作成する入力データがクリーンで重複除去されていることを確認します。
データセットのクリーニングおよび重複除去する方法のサンプルは、tMatchPredictによってラベル付けされたサスペクトペアとtMatchPairingによって計算された一意な行からクリーンなデータセットを作成するをご覧ください。
-
ElasticsearchクラスターではElasticsearch 5+を実行している必要があります。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。