Configurer le composant tBlockedFuzzyJoin - 6.5

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tBlockedFuzzyJoin afin d'afficher sa vue Basic settings et définir ses propriétés.
  2. Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir la structure des données des fichiers d'entrée, et définir les données que vous souhaitez passer aux composants de sortie.

    Dans cet exemple, l'objectif est de passer les quatre colonnes d'entrée aux composants de sortie, en plus de la nouvelle colonne ref_firstname.

  3. Cliquez sur OK afin de fermer la boîte de dialogue et procéder à l'étape suivante.
  4. Dans la zone Key definition de la vue Basic settings du tBlockedFuzzyJoin, cliquez deux fois sur le bouton [+] afin d'ajouter deux colonnes à la liste.
  5. Sélectionnez les colonnes d'entrée et de sortie sur lesquelles vous souhaitez effectuer le rapprochement flou dans les listes Input key attribute et Lookup key attribute, respectivement grp et firstname dans cet exemple.
  6. Cliquez dans la première cellule de la colonne Matching type, et sélectionnez dans la liste la méthode à utiliser pour vérifier les données entrantes par rapport aux données de référence, Exact match dans cet exemple. Il n'y a ni distance minimale ni distance maximale à définir.
  7. Paramétrez le type de correspondance pour la seconde colonne, Levenshtein dans cet exemple.
  8. Définissez ensuite les distances minimale et maximale. Dans cette méthode, la distance est le nombre de changements de caractères (insertion, suppression ou substitution) devant être effectués pour que l'entrée corresponde entièrement à la référence. Dans cet exemple, l'objectif est de faire en sorte que la distance minimale soit de 0 et que la distance maximale soit de 2. Cela aura pour conséquence d'écrire toutes les entrées de la colonne firstname correspondant exactement, ou celles ayant au maximum deux changements de caractères à effectuer.