Configurer le composant tMatchGroup - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Double-cliquez sur le tMatchGroup pour afficher sa vue Basic settings et définir ses propriétés.
  2. Dans la liste Matching Algorithm, sélectionnez Simple VSR.
    Dans ce scénario, la règle de rapprochement utilise l'algorithme VSR.
  3. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.
  4. Cliquez sur le bouton près du champ Edit schema pour voir les schémas d'entrée et de sortie et effectuer des modifications dans le schéma de sortie, si nécessaire.
    Dans le schéma de sortie de ce composant, vous pouvez voir des colonnes standard en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
  5. Cliquez sur OK pour fermer cette boîte de dialogue.
  6. Cliquez sur le bouton […] près de Configure match rules pour ouvrir l'assistant de configuration et configurez le composant et les règles de rapprochement.
    Vous pouvez également utiliser l'assistant de configuration pour importer les règles de rapprochement créées et testées dans le Studio Talend, et stockées dans le référentiel, afin de les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Import de règles de rapprochement depuis le référentiel Studio Talend.
    Il est important d'importer ou de définir dans les propriétés simples du composant le même type de règle, sinon, le Job s'exécute avec les valeurs par défaut des paramètres n'étant pas compatibles avec le deux algorithmes.
  7. Définissez la première règle de correspondance comme suit :
    • dans la table Key definition, cliquez sur le bouton [+] pour ajouter à la liste la (les) colonne(s) sur laquelle (lesquelles) appliquer l'opération de correspondance, lname et fname dans ce scénario.

      Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

      Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

    • Cliquez dans la colonne Matching Function et sélectionnez dans la liste la (les) méthode(s) à utiliser pour l'opération de mise en correspondance, Jaro-Winkler dans cet exemple.

      Si vous sélectionnez custom comme type de correspondance, vous devez saisir, dans la colonne Custom Matcher, le chemin d'accès pointant vers la classe personnalisée (algorithme externe de mise en correspondance) à utiliser. Ce chemin d'accès est défini par vos soins dans le fichier de la bibliothèque (fichier .jar).

    • dans la liste Tokenized measure, choisissez de ne pas utiliser une mesure segmentée pour les algorithmes sélectionnés.

    • cliquez dans la cellule de la colonne Weight afin de configurer les paramètres avancés de la colonne, ainsi que les poids numériques des trois colonnes utilisées comme attributs de clés.

    • Cliquez dans la cellule de la colonne Handle Null et sélectionnez l'opérateur à utiliser pour gérer les attributs null dans les colonnes. Dans cet exemple, sélectionnez Null Match None afin d'avoir un impact minimal des valeurs nulles dans les résultats de correspondance.

    • configurez la probabilité de correspondance dans le champ Match Interval.

  8. Suivez la même procédure que celle détaillée ci-dessus afin de définir la deuxième règle de mise en correspondance.
    Définissez la colonne address1 comme attribut d'entrée et sélectionnez le type de correspondance Jaro. Sélectionnez l'opérateur de valeurs nulles Null Match None. Enfin, définissez la probabilité de correspondance. Cette dernière peut être différente de celle définie dans la première règle.
  9. Configurez le paramètre Hide groups of less than afin de décider des groupes à afficher dans le diagramme des résultats et dans la table de rapprochement. Ce paramètre vous permet de masquer des groupes de petite taille.
  10. Cliquez sur l'onglet Advanced settings et configurez les paramètres avancés du tMatchGroup comme suit :
    • Cochez la case Separate output.

      Le composant crée trois flux de sortie séparés : Unique rows, Confident groups et Uncertain groups.

      Si la case n'est pas cochée, le composant tMatchGroup n'a qu'un flux de sortie regroupant toutes les données de sortie. Pour un scénario d'exemple, consultez Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle dans la section Identification.

    • Cochez la case Sort the output data by GID afin de classer les données de sortie selon l'identifiant de leur groupe.

    • Cochez les cases Output distance details et Display detailed labels.

      Le composant écrit en sortie la colonne MATCHING_DISTANCES. Cette colonne donne la distance entre les colonnes d'entrée et la colonne maître. Elle donne également le nom des colonnes mises en correspondance avec les enregistrements.

    • Cochez la case Deactivate matching computation when opening the wizard si vous ne souhaitez pas exécuter les règles de rapprochement lors de la prochaine ouverture de l'assistant.

  11. Dans l'assistant, cliquez sur le bouton Chart afin d'exécuter le Job dans la configuration définie. Les résultats de la correspondance s'affichent directement dans l'assistant.
    Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table des correspondances donne les détails des éléments de chaque groupe et les colore selon leur couleur dans le graphique des correspondances.
    Le Job effectue une opération de mise en correspondance de type OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport à la seconde règle. La colonne MATCHING_DISTANCES vous permet de voir la règle qui a été utilisée sur chaque enregistrement. Certains enregistrements sont rapprochés selon la seconde règle utilisant address1 comme attribut de clé et les autres enregistrements du groupe sont rapprochés selon la première règle utilisant les attributs de clés lname and fname.
    Vous pouvez configurer le paramètre Hide groups less than afin de définir les groupes à afficher dans le graphique et la table des correspondances.