Configurer le composant tMatchGroup - 7.2

Rapprochement de données

EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données

Procédure

  1. Cliquez sur le composant tMatchGroup pour afficher sa vue Basic settings.
  2. Dans la liste Matching Algorithm, sélectionnez T-Swoosh.
  3. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.
  4. Cliquez sur le bouton près du champ Edit schema pour voir les schémas d'entrée et de sortie et effectuer des modifications dans le schéma de sortie, si nécessaire.
    Dans le schéma de sortie de ce composant, des colonnes standards de sortie sont en lecture seule. Pour plus d'informations, consultez les propriétés du tMatchGroup .
  5. Cliquez sur OK pour fermer cette boîte de dialogue.
  6. Clique sur l'onglet Advanced settings et cochez les cases suivantes :
    1. Separate output

      Le composant aura trois flux de sortie séparés : Uniques, Matches et Suspects.

      Si la case n'est pas cochée, le composant tMatchGroup n'a qu'un flux de sortie regroupant toutes les données de sortie. Pour un scénario d'exemple, consultez Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle.

    2. Trier les données par ID de groupe
    3. Détails de la distance de sortie
    4. Afficher les libellés détaillés
    5. Désactiver le calcul du rapprochement lors de l'ouverture de l'assistant
  7. Cliquez sur le bouton […] près de Configure match rules afin de définir la configuration du composant et les règles de rapprochement.
    Vous pouvez utiliser l'assistant de configuration pour importer des règles de rapprochement créées puis testées dans le Studio et stockées dans le référentiel et les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.
    Il est important d'importer ou de définir le même type de règle sélectionné dans les paramètres simples du composant. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  8. Définissez la règle de rapprochement comme suit :
    1. Dans la table Key definition, cliquez sur le bouton [+] pour ajouter à la liste la (les) colonne(s) sur laquelle (lesquelles) appliquer l'opération de rapprochement, lname et fname.
      Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

      Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

    2. Cliquez dans la colonne Matching Function et sélectionnez dans la liste la (les) méthode(s) à utiliser pour l'opération de mise en correspondance, Jaro-Winkler dans cet exemple.

      Si vous sélectionnez custom comme type de correspondance, vous devez saisir, dans la colonne Custom Matcher, le chemin d'accès pointant vers la classe personnalisée (algorithme externe de mise en correspondance) à utiliser. Ce chemin d'accès est défini par vos soins dans le fichier de la bibliothèque (fichier .jar).

    3. Dans la liste Tokenized measure, sélectionnez No.
    4. Cliquez dans la cellule de la colonne Threshold, saisissez 0.7 pour fname et 0.4 pour lname.
    5. Cliquez dans la cellule de la colonne Confidence Weight afin de configurer les poids numériques des deux colonnes utilisées comme attributs de clés : 1 pour fname et 4 pour lname.
    6. Cliquez dans la cellule de la colonne Handle Null et sélectionnez l'opérateur à utiliser pour gérer les attributs null dans les colonnes. Dans cet exemple, sélectionnez Null Match NONE afin d'avoir un impact minimal des valeurs nulles dans les résultats de rapprochement.
    7. Sélectionnez Most common dans la colonne Survivorship Function.
  9. Suivez la même procédure que celle détaillée ci-dessus afin de définir la deuxième règle de rapprochement et configurez les paramètres comme suit :
    1. Cliquez sur le bouton [+] (Duplicate Rule).
    2. Input Key Attribute : address
    3. Matching Function : Jaro
    4. Tokenized Measure : No
    5. Threshold : 0.8
    6. Confidence Weight : 1
    7. Handle Null : Null Match NONE
    8. Survivorship Function : Most common
  10. Configurez le paramètre Match Threshold de chaque Match Rule à 0.8.
  11. Configurez le paramètre Hide groups of less than à 2. Ce paramètre vous permet de masquer des groupes de petite taille.
  12. Cliquez sur le bouton Chart afin d'exécuter le Job dans la configuration définie. Les résultats de la correspondance s'affichent directement dans l'assistant.
    Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table des correspondances donne les détails des éléments de chaque groupe et les colore selon leur couleur dans le graphique des correspondances.
    Le Job effectue une opération de mise en correspondance de type OR. Il évalue les enregistrements par rapport à la règle. La colonne MATCHING_DISTANCES vous permet de voir la règle qui a été utilisée sur chaque enregistrement. 

     Par exemple, dans le second groupe de données (brique rouge), le dernier enregistrement Amic est mis en correspondance par rapport à la seconde règle, en utilisant address1 comme attribut de clé. Les autres enregistrements du groupe, en revanche, ont mis en correspondance par rapport à la première règle utilisant lname et fname comme attributs de clés.

    Comme vous pouvez le constater, la valeur de la colonne GRP_QUALITY peut être inférieure à la valeur du paramètre Match Threshold. Cela est possible car un groupe est créé à partir de paires d'enregistrements avec un score de rapprochement supérieur ou égal à la valeur de Match Threshold, mais les enregistrements ne sont pas tous comparés les uns aux autres, tandis que GRP_QUALITY prend en compte toutes les paires d'enregsitrements dans le groupe.