Regrouper les enregistrements en doublon - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Procédure

  1. Cliquez-droit sur le composant tMatchGroup pour ouvrir son menu contextuel et sélectionnez Configuration wizard.
    Dans l'assistant, vous pouvez voir à quoi ressemblent vos groupes et ajuster les paramètres du composant afin d'obtenir correctement les correspondances similaires.
  2. Cliquez sur le bouton [+] sous la table Key Definition afin d'ajouter une ligne.
  3. Dans la colonne Input Key Attribute de cette ligne, sélectionnez acctName. Ainsi, cette colonne devient la référence utilisée pour mettre en correspondance les doublons des données d'entrée.
  4. Dans la colonne Matching Function, sélectionnez l'algorithme de mise en correspondance Jaro-Winkler.
  5. Dans le champ Match threshold, saisissez la valeur numérique pour indiquer la valeur de correspondance de deux enregistrements. Dans cet exemple, saisissez 0.6.
  6. Cliquez sur le bouton Chart pour exécuter cette règle de mise en correspondance et afficher le résultat dans l'assistant. Si les enregistrements d'entrée ne sont pas groupés en un seul groupe, remplacez 0.6 par une valeur inférieure et cliquez à nouveau sur Chart pour vérifier le résultat, jusqu'à ce que les quatre enregistrements soient dans le même groupe.
    Le Job de ce scénario regroupe quatre enregistrements similaires en un seul groupe de doublons, afin que le composant tRuleSurvivorship puisse créer un enregistrement consolidé. Cet exemple simple vous permet d'avoir une vision claire du fonctionnement du tRuleSurvivorship avec d'autres composants pour créer des données de meilleure qualité. Cependant, dans un cas réel d'utilisation, vous pouvez traiter beaucoup plus de données, dans des situations de duplication très complexes, et regrouper les données dans de plus nombreux groupes.
  7. Cliquez sur OK pour fermer l'assistant [Configuration wizard]. La vue Basic settings du composant tMatchGroup est automatiquement renseignée avec les paramètres que vous avez définis.
    Pour plus d'informations concernant l'assistant [Configuration wizard], consultez Assistant de configuration.