Regrouper les enregistrements en doublon - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Cliquez-droit sur le composant tMatchGroup pour ouvrir son menu contextuel et sélectionnez Configuration wizard.
    Dans l'assistant, vous pouvez voir à quoi ressemblent vos groupes et ajuster les paramètres du composant afin d'obtenir correctement les correspondances similaires.
  2. Cliquez sur le bouton [+] sous la table Key Definition afin d'ajouter une ligne.
  3. Dans la colonne Input Key Attribute de cette ligne, sélectionnez acctName. Ainsi, cette colonne devient la référence utilisée pour mettre en correspondance les doublons des données d'entrée.
  4. Dans la colonne Matching Function, sélectionnez l'algorithme de mise en correspondance Jaro-Winkler.
  5. Dans le champ Match threshold, saisissez la valeur numérique pour indiquer la valeur de correspondance de deux enregistrements. Dans cet exemple, saisissez 0.6.
  6. Cliquez sur le bouton Chart pour exécuter cette règle de mise en correspondance et afficher le résultat dans l'assistant.
    Si les enregistrements d'entrée ne sont pas groupés en un seul groupe, remplacez 0.6 par une valeur inférieure et cliquez à nouveau sur Chart pour vérifier le résultat, jusqu'à ce que les quatre enregistrements soient dans le même groupe.
    Le Job de ce scénario regroupe quatre enregistrements similaires en un seul groupe de doublons, afin que le composant tRuleSurvivorship puisse créer un enregistrement consolidé. Cet exemple simple vous permet d'avoir une vision claire du fonctionnement du tRuleSurvivorship avec d'autres composants pour créer des données de meilleure qualité. Cependant, dans un cas réel d'utilisation, vous pouvez traiter beaucoup plus de données, dans des situations de duplication très complexes, et regrouper les données dans de plus nombreux groupes.
  7. Cliquez sur OK pour fermer l'assistant Configuration wizard. La vue Basic settings du composant tMatchGroup est automatiquement renseignée avec les paramètres que vous avez définis.
    Pour plus d'informations concernant l'assistant Configuration wizard, consultez Assistant de configuration.