Créer une règle de mise en correspondance - 6.2

Talend Open Studio for Data Quality Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Data Quality
task
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans le studio, vous pouvez créer des règles de mise en correspondance avec l'algorithme VSR ou T-Swoosh et les sauvegarder dans le référentiel. Une fois centralisées dans le référentiel, vous pouvez les importer dans l'éditeur d'analyse de correspondance et les tester sur vos données, afin de grouper les enregistrements en doublon. Pour plus d'informations concernant les analyses de rapprochement, consultez Créer une analyse de rapprochement.

Les deux algorithmes produisent différents résultats de correspondance pour les raisons suivantes :

  • l'enregistrement maître est simplement sélectionné pour être le premier enregistrement d'entrée avec l'algorithme VSR. La liste des groupes correspondants dépend donc de l'ordre des enregistrements d'entrée,

  • les enregistrements de sortie ne changent pas avec l'algorithme VSR, alors que le T-Swoosh crée de nouveaux enregistrements.

Définir la règle

  1. Dans la vue DQ Repository, développez Libraries > Rules.

  2. Cliquez-droit sur Match et sélectionnez New Match Rule.

  3. Dans l'assistant [New Match Rule], saisissez un nom et configurez autres les métadonnées si nécessaire.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

    Considérez, par exemple que vous souhaitez créer une règle pour rapprocher les noms complets des clients.

  4. Cliquez sur Finish.

    Un éditeur de règle de rapprochement s'ouvre dans le studio et la nouvelle règle de rapprochement s'affiche sous le nœud Libraries > Rule > Match dans la vue DQ Repository.

    Dans la vue Record Linkage algorithm, l'algorithme Simple VSR Matcher est sélectionné par défaut.

  5. Commencez à définir les éléments de règles de rapprochement comme décrit dans Règles avec l'algorithme VSR et Règles avec l'algorithme T-Swoosh.

Dupliquer une règle

Pour éviter de créer une règle de rapprochement à partir de rien, vous pouvez en dupliquer une existante et modifier ses métadonnées et sa définition pour obtenir une nouvelle règle.

Pour dupliquer une règle, procédez comme suit :

  1. Dans la vue DQ Repository, développez les nœuds Libraries > Rules > Match.

  2. Parcourez la liste des règles de rapprochement pour trouver celle que vous souhaitez dupliquer.

  3. Cliquez-droit sur son nom et sélectionnez Duplicate.

    La règle dupliquée est créer sous le dossier Match dans la vue DQ Repository.

  4. Double-cliquez sur la règle dupliquée pour l'ouvrir et modifier ses métadonnées et/ou sa définition, selon vos besoins.

Règles avec l'algorithme VSR

L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies. Il compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité de chaque groupe est l'enregistrement maître du groupe. L'algorithme VSR compare chaque enregistrement à l'enregistrement maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe dans lequel doit aller chaque enregistrement.

Dans l'analyse de rapprochement, les résultats des mises en correspondance via l'algorithme VSR varient selon l'ordre des enregistrements d'entrée. Si possible, placez d'abord, dans le flux d'entrée, les enregistrements les plus fiables, pour une meilleure précision de l'algorithme.

Définir une clé de bloc

Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.

  1. Dans l'éditeur de règles et dans la zone Generation of Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.

  2. Configurez les paramètres de la clé de bloc comme suit :

    • Blocking Key Name : saisissez un nom pour la colonne que vous souhaitez utiliser afin de réduire le nombre de paires d'enregistrements à comparer.

    • Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.

      Définir un pré-algorithme n'est pas obligatoire. L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données.

    • Algorithm : sélectionnez dans la liste déroulante l'algorithme de rapprochement à utiliser et configurez sa valeur, où cela est nécessaire.

    • Post-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur là où c'est nécessaire.

      Définir un post-algorithme n'est pas obligatoire. L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données.

  3. Si nécessaire, répétez les étapes pour ajouter autant de clés de bloc que nécessaire.

    Lorsque vous importez une règle avec de nombreuses clés de bloc dans l'éditeur d'analyse de rapprochement, seule une clé de bloc sera générée et affichée dans la colonne BLOCK_KEY de la table Data.

Définir une clé de rapprochement

  1. Dans l'éditeur de règle et dans la table Matching Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.

  2. Configurez les paramètres de la clé de rapprochement comme suit:

    • Match Key Name : saisissez le nom de votre choix pour la clé de rapprochement.

    • Matching Function : sélectionnez dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.

      Dans cet exemple, deux clés de rapprochement sont définies. Utilisez les méthodes de rapprochement Levenshtein et Jaro-Winkler sur les prénoms et noms de famille, respectivement et récupérez les enregistrements en doublon.

    • Custom Matcher : cet élément est utilisable uniquement avec la fonction de consolidation Custom. Parcourez votre système et sélectionnez le fichier Jar de l'algorithme personnalisé.

    • Confidence Weight : configurez un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner une plus grande importance ou une importance moindre à certaines colonnes lors de l'opération de rapprochement.

    • Handle Null : spécifiez comment traiter les enregistrements de données contenant des valeurs nulles.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité de correspondance. Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1. Au-dessus de ce seuil, vous pouvez avoir confiance en la qualité du groupe.

  4. Pour définir une seconde règle de rapprochement, placez votre curseur dans le coin supérieur droit de la table Matching Key et cliquez sur le bouton [+].

    Suivez les étapes pour créer une règle de rapprochement.

    Lorsque vous définissez de multiples conditions dans l'éditeur de règle de rapprochement, une opération de mise en correspondance OR est effectuée sur les données analysées. Les enregistrements sont évalués par rapport à la première règle. Les enregistrements qui correspondent à la première règle ne sont pas évalués par rapport à la seconde.

  5. Si nécessaire, placez votre curseur dans le coin supérieur droit de la table et cliquez sur le bouton puis remplacez les noms par défaut des règles par ceux de votre choix.

    Vous pouvez également utiliser les flèches de la boîte de dialogue pour modifier l'ordre des règles et décider de la règle à exécuter en premier.

  6. Cliquez sur OK.

    Les règles sont renommées et ordonnées comme défini dans la table Matching Key.

  7. Sauvegardez les paramètres de la règle de rapprochement.

    La règle de rapprochement est sauvegardée et centralisée sous le nœud Libraries > Rule > Match dans l'arborescence DQ Repository.

Vous pouvez importer et tester la règle sur vos données dans l'éditeur d'analyse de rapprochement. Pour plus d'informations, consultez Importer ou exporter des règles de mise en correspondance.

Règles avec l'algorithme T-Swoosh

Vous pouvez utiliser l'algorithme T-Swoosh pour trouver des doublons et définir comment fusionner deux enregistrements similaires pour créer un enregistrement maître, à l'aide d'une fonction de consolidation. Ces nouveaux enregistrements fusionnés sont utilisés pour trouver des doublons. La différence avec l'algorithme VSR est que l'enregistrement de données maître est généralement un nouvel enregistrement qui n'existe pas dans la liste des enregistrements d'entrée.

  1. Dans la zone Record linkage algorithm, sélectionnez T-Swoosh.

  2. Dans la zone Match and Survivor, définissez les critères à utiliser lors du rapprochement des enregistrements de données. Cliquez sur le bouton [+] pour ajouter une nouvelle règle et configurez les critères suivants.

    • Match Key Name : saisissez un nom pour la clé de rapprochement.

    • Matching Function : sélectionnez dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme de rapprochement externe personnalisé.

    • Custom Matcher : cet élément est utilisé uniquement avec la fonction de rapprochement Custom. Parcourez votre système et sélectionnez le fichier .jar de l'algorithme personnalisé.

    • Threshold : spécifiez le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configurez un poids numérique (entre 1 et 10) sur la colonne à utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.

    • Handle Null : spécifiez comment traiter les enregistrements de données contenant des valeurs nulles.

      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionnez dans la liste la manière dont vont fusionner deux enregistrements similaires.

      • Concatenate : ajouter le contenu du premier enregistrement et le contenu du second. Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez spécifier un séparateur à utiliser pour séparer les valeurs.

      • Prefer True (for booleans) : toujours configurer les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : toujours configurer les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valider la valeur du champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : Most recent permet de valider la valeur de date la plus récente et Most ancient permet de valider la date la plus ancienne dans chaque groupe de doublons. La colonne de référence doit être de type Date.

      • Longest or Shortest : Longest valide la valeur la plus longue du champ et Shortest valide la valeur la plus courte dans chaque groupe de doublons.

      • Largest or Smallest : Largest valide la plus grande valeur numérique et Smallest valide la plus petite valeur dans un groupe de doublons.

        Avertissement

        Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité de correspondance.

    Deux enregistrements correspondent lorsque la valeur du seuil est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Dans la zone Default Survivorship Rules, définissez comment consolider les correspondances pour certains types de données : Boolean, Data, Number et String. Si vous ne spécifiez pas le comportement des types de données, le comportement par défaut est appliqué.

    • Cliquez sur le bouton [+] pour ajouter une nouvelle ligne pour chaque type de données.

    • Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.

    • Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Notez que les choix judicieux varient selon le type de données.

      Avertissement

      Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  5. Sauvegardez vos modifications.