Créer une analyse de rapprochement - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Cette analyse vous permet de créer des règles de mise en correspondance et de les tester sur des données afin d'évaluer le nombre de doublons avant d'utiliser ces règles de mise en correspondance dans le composant tMatchGroup, par exemple. Vous pouvez tester les règles de rapprochement sur des colonnes de la même table uniquement.

Prérequis : Vous devez avoir sélectionné la perspective Profiling dans le studio.Au moins une connexion à une base de données ou à un fichier doit être créée sous le nœud Metadata. pour plus d'informations, consultez Se connecter à une base de données.

La séquence de configuration d'une analyse de mise en correspondance comprend les étapes suivantes :

  1. Connexion à une source de données.

  2. Définition des colonnes dans lesquelles chercher les enregistrements similaires à l'aide de processus de mise en correspondance.

  3. Définition d'une clé de bloc afin de réduire le nombre de paires à comparer.

  4. Définition d'une clé de bloc et des méthodes de mise en correspondance selon lesquelles les enregistrements similaires sont regroupés.

  5. Export des règles de mise en correspondance à partir de l'éditeur d'analyse de correspondance et centralisation dans le référentiel du studio.

Définir une analyse de mise en correspondance

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Commencez à saisir match dans le champ de filtre, sélectionnez Match Analysis puis cliquez sur Next.

  4. Saisissez un nom pour l'analyse, configurez ses métadonnées puis cliquez sur Next.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Développez le nœud DB connections ou FileDelimited connections respectivement, si les colonnes que vous souhaitez mettre en correspondance sont dans une base de données ou dans un fichier délimité.

  6. Parcourez les colonnes que vous souhaitez mettre en correspondance, sélectionnez-les et cliquez sur Finish.

    Vous devez sélectionner des colonnes de la même table. L'analyse de rapprochement ne fonctionne pas sur des colonnes de différentes tables.

    L'éditeur d'analyse de mise en correspondance s'ouvre et liste les colonnes sélectionnées.

    Vous pouvez ouvrir directement l'éditeur d'analyse de rapprochement sur les colonnes à comparer si vous cliquez-droit sur la (les) colonne(s) sous le nœud Metadata et que vous sélectionnez Analyze matches.

  7. Dans le champ Limit, configurez le nombre d'enregistrements de données que vous souhaitez utiliser comme échantillon de données. Les données sont affichées dans la table Data.

  8. Si nécessaire, cliquez sur le nom d'une colonne dans la table afin de trier les données d'exemple en ordre ascendant ou descendant.

  9. Dans l'éditeur d'analyse de mise en correspondance, sélectionnez :

    Option

    Pour...

    sélectionner la table sous le nœud Metadata de l'arborescence.

    New Connection

    créer une connexion à une base de données ou à un fichier depuis l'éditeur d'analyse de rapprochement dans lequel vous pouvez développer cette nouvelle connexion et sélectionnez les colonnes sur lesquelles effectuer le rapprochement. Pour plus d'informations concernant la création d'une connexion à des sources de données, consultez Se connecter à une base de données et Se connecter à un fichier délimité.

    Select Data

    mettre à jour la sélection des colonnes listées dans la table.

    Si vous modifiez l'ensemble de données pour une analyse, les diagrammes affichant les résultats de rapprochement des données d'exemple sont automatiquement effacés. Vous devez cliquer sur Chart afin de calculer les résultats de rapprochement pour le nouvel ensemble de données défini.

    Refresh Data

    rafraîchir la vue des colonnes listées dans la table.

    n first rows

    ou

    n random rows

    lister dans la table les N premiers enregistrements des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.

    Select Blocking Key

    définir les colonnes du flux d'entrée selon lesquelles vous souhaitez partitionner les données traitées en blocs.

    Pour plus d'informations, consultez Définir une règle de mise en correspondance.

    Select Matching Key

    définir les règles de mise en correspondance et les colonnes du flux d'entrée sur lesquelles vous souhaitez appliquer l'algorithme de mise en correspondance.

    Pour plus d'informations, consultez Définir une règle de mise en correspondance.

    Store on disk

    stocker les blocs de données traités sur le disque afin d'optimiser les performances système.

    Max buffer size : Saisissez la taille de la mémoire physique à allouer aux données traitées.

    Temporary data directory path : Configurez le chemin d'accès au répertoire où stocker le fichier temporaire.

    La table Data contient des colonnes supplémentaires affichant les résultats des données en correspondance.

    Colonne

    Description

    GID

    représente l'identifiant du groupe.

    GRP_SIZE

    compte le nombre d'enregistrements dans le groupe. Le calcul se fait uniquement sur l'enregistrement maître.

    MASTER

    indique, par true ou false, si l'enregistrement utilisé dans la comparaison est un enregistrement maître. Il y a un seul enregistrement maître par groupe.

    Chaque enregistrement d'entrée est comparé à l'enregistrement maître. S'ils correspondent, l'enregistrement d'entrée sera inclus dans le groupe.

    SCORE

    mesure la distance entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de rapprochement utilisé.

    GRP_QUALITY

    seul l'enregistrement maître possède un score de qualité représentant la valeur minimale du groupe.

    ATTRIBUTE_SCORE

    liste le score de correspondance et le nom des colonnes utilisées comme attributs de clés dans les règles appliquées.

    Vous pouvez trouver ces colonnes dans le schéma de sortie du composant tMatchGroup. Pour plus d'informations, consultez le tMatchGroup dans le Guide de référence des Composants Talend.

Définir une règle de mise en correspondance

Vous pouvez définir des règles de mise en correspondance dans l'éditeur d'analyse de mise en correspondance en définissant :

  • les clés de bloc, les colonnes du flux d'entrée selon lesquelles vous souhaitez partitionner les données traitées en blocs,

  • les clés de mise en correspondance, les règles de consolidation et les algorithmes de mise en correspondance à appliquer sur les colonnes du flux d'entrée.

Définir une clé de bloc

Définir une clé de bloc n'est pas obligatoire mais fortement conseillé. Utiliser une clé de bloc pour partitionner des données en blocs réduit le nombre d'enregistrements nécessitant d'être comparés à des paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lors du traitement d'ensembles de données volumineux.

  1. Dans la zone Data, cliquez sur l'onglet Select Blocking Key puis sur le nom des colonnes que vous souhaitez utiliser pour partitionner les données traitées en blocs.

    Des clés de bloc ayant exactement le même nom que la colonne sélectionnée sont listées dans la table Blocking Key.

    Vous pouvez définir plus d'une colonne dans la table. Cependant, une seule clé de bloc est générée et listée dans la colonne BLOCK_KEY de la table Data.

    Par exemple, si vous utilisez un algorithme sur les colonnes country et lname afin de traiter les enregistrements ayant le même caractère de départ, les enregistrements de données ayant la même première lettre dans le nom du pays ou dans le nom de famille sont groupés dans le même bloc. La comparaison est restreinte à chaque enregistrement dans chaque bloc.

    Pour supprimer une colonne de la table Blocking key, cliquez-droit dessus et sélectionnez Delete ou cliquez sur son nom dans la table Data.

  2. Sélectionnez un algorithme pour la clé de bloc et configurez les autres paramètres dans la table Blocking Key selon vos besoins.

    Dans cet exemple, seule une clé de bloc est utilisée. Le premier caractère de chaque mot dans la colonne country est récupéré et listé dans la colonne BLOCK_KEY.

    Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey dans le Guide de référence des Composants Talend.

  3. Cliquez sur Chart pour calculer la clé générée, grouper les enregistrements d'exemple dans la table Data et afficher les résultats dans un diagramme.

    Ce diagramme vous permet de visualiser les statistiques concernant le nombre de blocs et d'adapter les paramètres de bloc selon les résultats que vous souhaitez obtenir.

Définir une clé de mise en correspondance avec l'algorithme VSR

  1. Dans la zone Record linkage algorithm, sélectionnez Simple VSR Matcher s'il n'est pas sélectionné par défaut.

  2. Dans la zone Data, cliquez sur l'onglet Select Matching Key puis sur le nom de la colonnes/des colonnes sur lesquelles appliquer les algorithmes de correspondance.

    Les clés de mise en correspondance ayant le nom exact des colonnes d'entrée sélectionnées sont listées dans la table Matching Key.

    Pour supprimer une colonne de la table, cliquez-droit dessus et sélectionnez Delete ou cliquez sur son nom dans la table Data.

  3. Sélectionnez les algorithmes de mise en correspondance à utiliser dans la colonne Matching Function et l'opérateur null dans la colonne Handle Null.

    Dans cet exemple, deux clés de mise en correspondance sont définies. Utilisez les méthodes de mise en correspondance Levenshtein et Jaro-Winkler sur les prénoms et noms de famille respectivement pour obtenir les enregistrements en doublon.

    Si vous souhaitez utiliser un algorithme de rapprochement externe personnalisé, sélectionnez Custom et utilisez la colonne Custom Matcher pour charger le fichier Jar de l'algorithme personnalisé.

    Pour plus d'informations concernant les algorithmes et règles de mise en correspondance ainsi que leurs paramètres, consultez la documentation du tMatchGroup dans le Guide de référence des Composants Talend.

Définir une clé de rapprochement à l'aide de l'algorithme T-Swoosh

  • Assurez-vous de sélectionner les colonnes sur lesquelles appliquer l'algorithme de correspondance, soit à partir de la zone Data à l'aide de l'onglet Select Matching Key, soit directement dans la table Matching Key.

Pour créer une clé de rapprochement utilisant l'algorithme T-Swoosh :

  1. Dans la zone Record linkage algorithm, sélectionnez T-Swoosh.

  2. Dans la zone Match and Survivor, définissez les critères à utiliser lors du rapprochement des enregistrements de données. Cliquez sur le bouton [+] pour ajouter une nouvelle règle et configurez les critères suivants.

    • Match Key Name : saisissez un nom pour la clé de rapprochement.

    • Matching Function : sélectionnez dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme de rapprochement externe personnalisé.

    • Custom Matcher : cet élément est utilisé uniquement avec la fonction de rapprochement Custom. Parcourez votre système et sélectionnez le fichier .jar de l'algorithme personnalisé.

    • Threshold : spécifiez le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configurez un poids numérique (entre 1 et 10) sur la colonne à utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.

    • Handle Null : spécifiez comment traiter les enregistrements de données contenant des valeurs nulles.

      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionnez dans la liste la manière dont vont fusionner deux enregistrements similaires.

      • Concatenate : ajouter le contenu du premier enregistrement et le contenu du second. Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez spécifier un séparateur à utiliser pour séparer les valeurs.

      • Prefer True (for booleans) : toujours configurer les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : toujours configurer les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valider la valeur du champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : Most recent permet de valider la valeur de date la plus récente et Most ancient permet de valider la date la plus ancienne dans chaque groupe de doublons. La colonne de référence doit être de type Date.

      • Longest or Shortest : Longest valide la valeur la plus longue du champ et Shortest valide la valeur la plus courte dans chaque groupe de doublons.

      • Largest or Smallest : Largest valide la plus grande valeur numérique et Smallest valide la plus petite valeur dans un groupe de doublons.

        Avertissement

        Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité de correspondance.

    Deux enregistrements correspondent lorsque la valeur du seuil est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Dans la zone Default Survivorship Rules, définissez comment consolider les correspondances pour certains types de données : Boolean, Data, Number et String. Si vous ne spécifiez pas le comportement des types de données, le comportement par défaut est appliqué.

    • Cliquez sur le bouton [+] pour ajouter une nouvelle ligne pour chaque type de données.

    • Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.

    • Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Notez que les choix judicieux varient selon le type de données.

      Avertissement

      Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  5. Sauvegardez vos modifications.

Modifier les règles et afficher les résultats d'exemple

  1. Pour définir une seconde règle de rapprochement, placez votre curseur sur le coin supérieur droit de la table Matching Key, cliquez sur le bouton [+] pour créer une nouvelle règle.

    Suivez les étapes décrites dans Définir une règle de mise en correspondance

    Lorsque vous définissez différentes conditions dans l'éditeur de règle de rapprochement, une opération de rapprochement OR est effectuée sur les données analysées. Les enregistrements évalués par rapport à la première règle et qui correspondent ne sont pas évalués par rapport à la seconde règle et ainsi de suite.

  2. Cliquez sur le bouton dans le coin supérieur droit de la zone Matching Key ou Match and Survivor et remplacez le nom par défaut de la règle par le nom de votre choix.

    Si vous définissez plis d'une règle dans l'analyse de rapprochement, vous pouvez utiliser les flèches dans la boîte de dialogue afin de modifier l'ordre des règles et décider de la règle à exécuter en premier.

  3. Cliquez sur OK.

    Les règles sont renommées et ordonnées.

  4. Dans le champ Match threshold, saisissez le seuil de probabilité de correspondance

    Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique entre la valeur du champ Match threshold et 1.

    Si la qualité GRP-QUALITY calculée par l'analyse de rapprochement est égale ou supérieure au seuil Confident match threshold, vous pouvez avoir confiance en la qualité du groupe.

  5. Cliquez sur Chart afin de calculer les groupes selon la clé de bloc et la règle de rapprochement définies dans l'éditeur et pour afficher les résultats des données d'exemple dans un graphique.

    Ce graphique montre une image globale des doublons dans les données analysées. Le paramètre Hide groups less than est configuré à 2 par défaut. Ce paramètre vous permet de décider quel groupe afficher dans le graphique. Vous pouvez masquer les groupes de petite taille.

    Le graphique dans l'image ci-dessus indique que, sur les 1000 enregistrements d'exemple examinés et après exclusion des éléments uniques, avec un paramètre Hide groups less than configuré à 2 :

    • Neuf groupes ont deux éléments chacun. Dans chaque groupe, les deux éléments sont des doublons l'un de l'autre.

    • un groupe a trois éléments en doublon et le dernier groupe a quatre éléments en doublon.

    La table Data indique les détails de la correspondance des éléments de chaque groupe et colorie les groupes selon leur couleur dans le graphique des correspondances.

Afficher les résultats de mise en correspondance

Pour collecter les doublons du flux d'entrée selon le type de correspondance défini, Levenshtein et Jaro-Winkler dans cet exemple, procédez comme suit :

  1. Si vous traitez des ensembles de données volumineux, cochez la case Store on disk dans la vue Analysis parameter et :

    • dans le champ Max buffer size, saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.

    • Dans le champ Temporary data directory path, configurez le chemin d'accès au répertoire où stocker le fichier temporaire.

  2. Sauvegardez les paramètres dans l'éditeur d'analyse de correspondance et appuyez sur la touche F6.

    L'analyse est exécutée. La règle de mise en correspondance et la clé de bloc sont calculées par rapport à l'ensemble complet des données. La vue Analysis Results s'ouvre dans l'éditeur.

    Dans cette vue, le graphique donne une vue d'ensemble concernant les doublons dans les données analysées. Dans la première table, vous pouvez voir les statistiques concernant le nombre d'enregistrements traités, les enregistrements distincts ayant une seule occurrence, les enregistrements en doublon (enregistrements rapprochés) et les enregistrements suspects ne correspondant pas à la règle. Les enregistrements en doublon représentent les enregistrements rapprochés avec un bon score - au-dessus du seuil de confiance. L'un des enregistrements de la paire rapprochée est un doublon et doit être supprimé, l'autre est l'enregistrement consolidé.

    Dans la seconde table, vous pouvez voir les statistiques concernant le nombre de chaque groupe et le nombre d'enregistrements dans chaque groupe.

Importer ou exporter des règles de mise en correspondance

Vous pouvez importer les règles de rapprochement depuis le référentiel du studio et les utiliser dans l'éditeur de rapprochement afin de les tester sur vos données. Vous pouvez également exporter vos règles de rapprochement depuis l'éditeur de mise en correspondance et les sauvegarder dans le référentiel du studio.

Vous pouvez importer des règles de mise en correspondance stockées dans le référentiel du studio dans l'éditeur de mise en correspondance et les tester sur vos données. Vous pouvez également exporter des règles de mise en correspondance de l'éditeur et les stocker dans le référentiel de votre studio.

Vous pouvez importer et utiliser ces règles créées avec l'algorithme VSR dans l'assistant de configuration du tMatchGroup et dans d'autres composants tels que le tGenkey, le tRecordMatching et des composants de mise en correspondance Hadoop.

Pour plus d'informations, consultez la documentation des composants de mise en correspondance dans le Guide de référence des Composants Talend.

Importer des règles de mise en correspondance du référentiel

  1. Dans l'éditeur de correspondances, cliquez sur l'icône en haut de l'éditeur.

  2. Dans l'assistant [Match Rule Selector], sélectionnez la règle de mise en correspondance à importer dans l'éditeur d'analyse de correspondance et à utiliser sur les données analysées.

    Note

    Un avertissement s'affiche dans l'assistant si la règle de rapprochement que vous souhaitez importer est définie sur des colonnes qui n'existent pas dans les données analysées. Ignorez le message, puisque vous pouvez définir ultérieurement les colonnes d'entrée dans l'éditeur d'analyse de rapprochement.

    Pour plus d'informations concernant l'algorithme Simple VSR Matcher, consultez Créer une règle de mise en correspondance.

  3. Cochez la case Overwrite current Match Rule in the analysis si vous souhaitez remplacer la règle dans l'éditeur par la règle que vous importez, sinon, laissez la case décochée.

  4. Cliquez sur OK.

    La règle de rapprochement est importée et les clés de blocs et clés de mise en correspondance et/ou les règles de consolidation sont listées dans les tables Matching Key et Blocking Key, respectivement.

  5. Cliquez sur Input column et sélectionnez dans la liste la colonne sur laquelle appliquer les clés de bloc et de mise en correspondance importées.

    Si les données analysées contiennent une colonne correspondant à la colonne d'entrée des clés importées, elle sera automatiquement définie dans la colonne Input column. Vous n'avez pas besoin de la spécifier vous-même.

    Lorsque vous analysez des données avec différentes conditions, les résultats de la mise en correspondance listent les enregistrements de données correspondant à l'une des règles. Lorsque vous exécutez l'analyse de mise en correspondance, une opération OR de mise en correspondance est effectuée sur les données et les enregistrements de données sont évalués par rapport à la première règle. Les enregistrements correspondant à la première règle ne sont pas évalués par rapport aux autres règles.

Exporter des règles de mise en correspondance dans le référentiel

  1. Dans l'éditeur de correspondances, cliquez sur l'icône , en haut de l'éditeur.

  2. Dans l'assistant ouvert, saisissez un nom pour la règle et configurez les autres métadonnées, si nécessaire.

  3. Cliquez sur Finish.

    L'éditeur de règle s'ouvre sur les paramètres de la règle. Cette dernière est sauvegardée et listée sous les nœuds Libraries > Rules > Match dans la vue DQ Repository.