tMatchPairing

Sparkでの機械学習のコンテキストで、大量のボリュームを含むソースデータから疑わしい重複のペアを計算できます。

このコンポーネントでは、行ごとにデータセット行を読み取り、個別ファイルのユニーク行および厳密な重複を排除し、ブロッキングキー定義に基づいて疑わしいレコードのペアを計算し、データセットを表す疑わしいレコードのサンプルを作成します。

サスペクトペアを手動でラベル付けしたり、Talend Data Stewardshipで既に定義済みのグルーピングキャンペーンにロードしたりできます。

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

デフォルトで、このコンポーネントはStudio Talendと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。詳細は、機能マネージャーを使って機能をインストールをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。