Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing - Cloud - 8.0

Dédoublonnage

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Last publication date
2023-07-26

Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant une souscription.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Dans cet exemple, les données d'entrée sont issues de deux sources :
Le cas d'utilisation décrit dans ce scénario utilise deux sous-Jobs :
  • Dans le premier sous-Job, le tRuleSurvivorship traite les enregistrements identifiés comme étant des doublons et regroupés par le tMatchPredict, afin de créer un représentant unique de chaque groupe de doublons.

  • Dans le deuxième sous-Job, le tUnite fusionne les représentants uniques et les enregistrements uniques afin de créer un jeu de données nettoyées et dédoublonnées qui sera utilisé avec le composant tMatchIndex.

Le fichier de sortie contient des données nettoyées et dédoublonnées. Vous pouvez indexer ce jeu de données de références dans Elasticsearch à l'aide du composant tMatchIndex.