tMatchPairing
Sparkでの機械学習のコンテキストで、大量のボリュームを含むソースデータから疑わしい重複のペアを計算できます。
このコンポーネントでは、行ごとにデータセット行を読み取り、個別ファイルのユニーク行および厳密な重複を排除し、ブロッキングキー定義に基づいて疑わしいレコードのペアを計算し、データセットを表す疑わしいレコードのサンプルを作成します。
サスペクトペアを手動でラベル付けしたり、Talend Data Stewardshipで既に定義済みのグルーピングキャンペーンにロードしたりできます。
ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。
デフォルトで、このコンポーネントはStudio Talendと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。