Définir la règle de rapprochement - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Dans la vue Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration et définir la clé de rapprochement et la fonction de consolidation.
    Vous pouvez également utiliser l'assistant de configuration pour importer les règles de rapprochement créées et testées dans le Studio Talend, et stockées dans le référentiel, afin de les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Import de règles de rapprochement depuis le référentiel Studio Talend.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  2. Définissez la règle de rapprochement comme suit :
    • Dans la table Key definition, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Input Key Attribute et sélectionnez la colonne sur laquelle vous souhaitez effectuer l'opération de rapprochement, first_name dans ce scénario.

    • Cliquez dans la colonne Matching Function et sélectionnez Soundex dans la liste. Cette méthode fait correspondre les entrées traitées à un algorithme phonétique anglais standard indexant les chaînes de caractères par son, comme lorsqu'elles sont prononcées en anglais.

    • Dans la liste Tokenized measure, choisissez de ne pas utiliser de mesure segmentée pour l'algorithme sélectionné.

    • Dans la colonne Threshold, saisissez 0.8 et dans la colonne Confidence Weight, saisissez 1.

    • Sélectionnez Null Match None dans la colonne Handle Null afin d'obtenir des résultats de rapprochement dans lesquels les valeurs nulls ont un impact minimal.

    • Sélectionnez Most common dans la colonne Survivorship Function. Cette méthode permet de valider la valeur du nom le plus fréquent dans chaque groupe de doublons.

  3. Définissez la règle de rapprochement par défaut comme suit :
    • Dans la table Default Survivorship Rules, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Data Type et sélectionnez Number.

    • Cliquez dans la colonne Survivorship Function et sélectionnez Largest (for numbers) dans la liste. Cette méthode valide la valeur numérique la plus grande au sein de chaque groupe.

  4. Configurez le paramètre Hide groups of less than afin de décider des groupes à afficher dans le diagramme des résultats et dans la table de rapprochement. Ce paramètre vous permet de masquer des groupes de petite taille.
  5. Cliquez sur le bouton Chart dans l'assistant pour exécuter le Job avec la configuration définie et obtenir les résultats directement dans l'assistant.
    Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table de rapprochement indique les détails des éléments dans chaque groupe, colore les groupes selon les couleurs du diagramme de rapprochement et indique par true les enregistrements maître. L'enregistrement maître de chaque groupe est le résultat de la fusion de deux enregistrements similaires selon l'algorithme phonétique et la règle de consolidation. L'enregistrement maître est un nouvel enregistrement qui n'existe pas dans les données d'entrée.
  6. Cliquez sur OK pour fermer l’assistant.