Accéder au contenu principal

Correspondance d'entrées utilisant les algorithmes Q-grams et Levenshtein

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus de technologies supportées par Talend, consultez .

Ce scénario décrit un Job utilisant une règle de rapprochement basée sur l'algorithme VSR. L'objectif de ce Job est de :

  • rapprocher les entrées de la colonne name des entrées du fichier d'entrée de référence, en divisant les chaînes de caractères en blocs de longueur q, où q est de trois, afin de créer un certain nombre de q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles,

  • vérifier la distance d'édition entre les entrées de la colonne email du fichier d'entrée et celles du fichier d'entrée de référence.

Les sorties de ces deux types de correspondances sont écrites dans trois fichiers de sortie : le premier pour les valeurs de correspondance, le deuxième pour les valeurs de correspondance possible, et le troisième pour les valeurs n'ayant aucune correspondance dans le fichier de référence.

Dans ce scénario, vous avez déjà stocké les schémas principaux et de référence dans le Repository. Pour plus d'informations concernant le stockage de métadonnées de schéma dans le référentiel, consultez le Guide d'utilisation du Studio Talend.

La table d'entrée principale contient sept colonnes : code, name, address, zipcode, city, email et col7. Vous allez effectuer un rapprochement flou sur deux colonnes : name et email.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !