Définir la règle de rapprochement - 6.4

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Procédure

  1. Dans la vue Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration et définir la clé de rapprochement et la fonction de consolidation.
    Vous pouvez utiliser l'assistant de configuration pour importer des règles de rapprochement créées puis testées dans le studio et stockées dans le référentiel et les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du studio.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  2. Définissez la règle de rapprochement comme suit :
    • dans la table Key definition, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Input Key Attribute et sélectionnez la colonne sur laquelle vous souhaitez effectuer l'opération de rapprochement, first_name dans ce scénario.

    • cliquez dans la colonne Matching Function et sélectionnez Soundex dans la liste. Cette méthode fait correspondre les entrées traitées à un algorithme phonétique anglais standard indexant les chaînes de caractères par son, comme lorsqu'elles sont prononcées en anglais.

    • dans la liste Tokenized measure, choisissez de ne pas utiliser de mesure segmentée pour l'algorithme sélectionné.

    • dans la colonne Threshold, saisissez 0.8 et dans la colonne Confidence Weight, saisissez 1.

    • sélectionnez Null Match None dans la colonne Handle Null afin d'obtenir des résultats de rapprochement dans lesquels les valeurs nulls ont un impact minimal.

    • sélectionnez Most common dans la colonne Matching Function. Cette méthode permet de valider la valeur du nom le plus fréquent dans chaque groupe de doublons.

  3. Définissez la règle de rapprochement comme suit :
    • Dans la table Default Survivorship Rules, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Data Type et sélectionnez Number.

    • Cliquez dans la colonne Survivorship Function et sélectionnez Largest (for numbers) dans la liste. Cette méthode valide la valeur numérique la plus grande au sein de chaque groupe.

  4. Configurez le paramètre Hide groups of less than afin de décider des groupes à afficher dans le diagramme des résultats et dans la table de rapprochement. Ce paramètre vous permet de masquer des groupes de petite taille.
  5. Cliquez sur le bouton Chart dans l'assistant pour exécuter le Job avec la configuration définie et obtenir les résultats directement dans l'asisstant.
    Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table de rapprochement indique les détails des éléments dans chaque groupe, colore les groupe selon les couleurs du diagramme de rapprochement et indique par true les enregistrements maître. L'enregistrement maître de chaque groupe est le résultat de la fusion de deux enregistrements similaires selon l'algorithme phonétique et la règle de consolidation. L'enregistrement maître est un nouvel enregistrement qui n'existe pas dans les données d'entrée.
  6. Cliquez sur OK pour fermer l’assistant.