Règles avec l'algorithme VSR

L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies.

Cet algorithme compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité dans chaque groupe est l'enregistrement maître du groupe. L'ordre des enregistrements a donc une importance et peut influencer le résultat du processus de création des enregistrements maître.

L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.

Dans l'analyse de rapprochement et les composants de rapprochement, les résultats des mises en correspondance via l'algorithme VSR varient selon l'ordre des enregistrements d'entrée. Si possible, placez d'abord, dans le flux d'entrée, les enregistrements les plus fiables, pour une meilleure précision de l'algorithme.

Notez que les composants de rapprochement, notamment les composants de rapprochement Hadoop s'exécutent uniquement avec des règles configurées avec l'algorithme VSR.

Vous pouvez importer et tester la règle sur vos données dans l'éditeur d'analyse de rapprochement. Pour plus d'informations, consultez Import de règles de rapprochement depuis le référentiel.

Vous pouvez également importer la règle dans l'assistant de configuration du tMatchGroup et dans d'autres composants de rapprochement, notamment les composants Hadoop et utiliser cette règle dans les Jobs de rapprochement. Pour plus d'informations, consultez la documentation du composant tMatchGroup.

Définir une clé de bloc pour l'analyse de rapprochement

About this task

Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.

Procedure

Dans l'éditeur de règles et dans la zone Generation of Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.
Configurez les paramètres de la clé de bloc comme suit :
- Blocking Key Name : saisissez un nom pour la colonne que vous souhaitez utiliser afin de réduire le nombre de paires d'enregistrements à comparer.
- Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.
  
  L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données.
- Algorithm : sélectionnez dans la liste déroulante l'algorithme de rapprochement à utiliser et configurez sa valeur, où cela est nécessaire.
- Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.
  
  L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données.
Si nécessaire, répétez les étapes pour ajouter autant de clés de bloc que nécessaire.
Lorsque vous importez une règle avec de nombreuses clés de bloc dans l'éditeur d'analyse de rapprochement, seule une clé de bloc sera générée et affichée dans la colonne BLOCK_KEY de la table Data.

Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey.

Définir une clé de rapprochement

Procedure

Dans l'éditeur de règle et dans la table Matching Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.
Configurez les paramètres de la clé de rapprochement comme suit:
- Match Key Name : saisissez le nom de votre choix pour la clé de rapprochement.
- Matching Function : sélectionne dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.
  
  Utilisez les méthodes de rapprochement Levenshtein et Jaro-Winkler sur les prénoms et noms de famille, respectivement et récupérez les enregistrements en doublon.
- Customer Matcher : cet élément est utilisable uniquement avec la fonction de consolidation Custom. Parcourez votre système et sélectionnez le fichier Jar de l'algorithme personnalisé.
- Confidence Weight : configure un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.
- Handle Null : spécifie comment traiter les enregistrements de données contenant des valeurs nulles.
Pour plus d'informations concernant les paramètres des règles de rapprochement, consultez la documentation du tMatchGroup.
Dans le champ Match threshold, saisissez le seuil de probabilité de rapprochement Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.
Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1. Au-dessus de ce seuil, vous pouvez avoir confiance en la qualité du groupe.
Pour définir une seconde règle de rapprochement, placez votre curseur dans le coin supérieur droit de la table Matching Key et cliquez sur le bouton [+].
Suivez les étapes pour créer une règle de rapprochement.

Lorsque vous définissez de multiples conditions dans l'éditeur de règle de rapprochement, une opération de rapprochement OR est effectuée sur les données analysées. Les enregistrements sont évalués par rapport à la première règle.
Optional: Pour remplacer les noms par défaut des règles, cliquez sur , en haut à droite de la table.
Vous pouvez également utiliser les flèches de la boîte de dialogue pour modifier l'ordre des règles et décider de la règle à exécuter en premier.
Cliquez sur OK.
Les règles sont renommées et ordonnées comme défini dans la table Matching Key.
Sauvegardez les paramètres de la règle de rapprochement.
La règle de rapprochement est sauvegardée et centralisée sous le nœud Libraries > Rule > Match dans l'arborescence DQ Repository.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici