サスペクトペアを計算し、サンプルをTalend Data Stewardshipに書き込む - Cloud - 8.0

Talendツールを使ってデータマッチング

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > データマッチングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > ファジーマッチコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > マッチングおよび機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > マッチング > 継続的マッチングコンポーネント
Last publication date
2024-02-06

このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。

大量のデータを処理する場合、重複レコードの発見は困難で時間がかかる作業となります。この例では、tMatchPairingでブロッキングキーを使用し、10種類のさまざまなソースに由来するシカゴの幼児教育センターの長いリストから重複が疑われるペアを計算します。

また、重複が疑われるサンプルを計算し、タスクの形式でTalend Data Stewardship[Grouping] (グルーピング)キャンペーンに書き込みます。次に、権限のあるデータスチュワードが実際にデータサンプルを見て、本当に重複しているかどうかを判断します。

次に、ラベル付きサンプルを使用して、マッチングモデルを計算し、Sparkの機械学習のコンテキストで重複が疑われるペアすべてに適用します。

以下に示すサンプルをレプリケートするには、tmatchpairing_load_suspect_pairs_in_tds.zipファイルをダウンロードします。

ジョブを設定する前に、次のことをご確認ください:
  • Talend Administration Center[Campaign Owner] (キャンペーン所有者)のロールに割り当てられ、サーバーのキャンペーンへのアクセス権限が付与されていること。

  • Talend Data Stewardship[Grouping] (グルーピング)キャンペーンが作成され、教育センターファイルのストラクチャーに対応するスキーマが定義されていること。