Configurer le groupement des données de sortie - 6.4

Identification

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'identification
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'identification
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le composant tMatchGroup pour afficher sa vue Basic settings et définir ses propriétés. Cliquez sur le bouton Edit schema afin de voir les colonnes d'entrée et de sortie et d'effectuer des modifications dans le schéma de sortie, si nécessaire.
    Dans le schéma de sortie de ce composant, des colonnes standard de sortie sont en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
  2. Cliquez sur OK pour fermer la boîte de dialogue.
  3. Double-cliquez sur le composant tMatchGroup pour afficher l'assistant [Configuration Wizard] et configurer les propriétés du composant.
    Si vous souhaitez ajouter une colonne de sortie fixe, MATCHING_DISTANCES, donnant les détails de la distance entre chaque colonne, cliquez sur l'onglet Advanced settings et cochez la case Output distance details. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
  4. Dans la table Key definition, cliquez sur le bouton [+] pour ajouter à la liste les colonnes sur lesquelles effectuer l'opération de mise en correspondance, FirstName et LastName, dans ce scénario.
  5. Cliquez sur la première et la deuxième cellules de la colonne Matching Function et sélectionnez dans la liste l'algorithme (les algorithmes) à utiliser pour effectuer la mise en correspondance, Jaro-Winkler dans cet exemple.
  6. Cliquez sur la première et la deuxième cellules de la colonne Weight et définissez les poids numériques pour chacune des colonnes utilisées comme attributs de clés.
  7. Dans le champ Match threshold, saisissez le seuil de probabilité. Deux enregistrements de données correspondent lorsque le seuil de probabilité est supérieur à cette valeur.
  8. Cliquez sur le bouton [+] sous le tableau Blocking Selection afin d'ajouter une ligne, puis cliquez sur cette ligne et sélectionnez dans la liste la colonne que vous souhaitez utiliser comme une valeur de bloc, T_GEN_KEY dans cet exemple.
    Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements à examiner. Les données d'entrée sont partitionnées en blocs exhaustifs basés sur la clé fonctionnelle. Cela permet de diminuer le nombre de paires à comparer, puisque la comparaison est limitée aux paires d'enregistrements dans chaque bloc.
  9. Cliquez sur le bouton Chart dans le coin supérieur droit de l'assistant afin d'exécuter le Job avec la configuration définie et voir directement les résultats de correspondance dans l'assistant.
    Le diagramme de correspondances montre une vue d'ensemble des doublons dans les données analysées. La table des correspondances indique les détails des éléments de chaque groupe et colore les groupes selon leur couleur dans le diagramme.