Configurer le composant tBlockedFuzzyJoin - 7.2

Rapprochement flou

EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou

Procédure

  1. Double-cliquez sur le tBlockedFuzzyJoin afin d'afficher sa vue Basic settings et définir ses propriétés.
  2. Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir les données que vous souhaitez passer aux composants de sortie.

    Dans cet exemple, l'objectif est de passer les quatre colonnes d'entrée aux composants de sortie, en plus de la nouvelle colonne ref_firstname.

  3. Cliquez sur OK afin de fermer la boîte de dialogue et procéder à l'étape suivante.
  4. Dans la zone Key definition de la vue Basic settings du tBlockedFuzzyJoin, cliquez deux fois sur le bouton [+] afin d'ajouter deux colonnes à la liste.
  5. Sélectionnez les colonnes d'entrée et de sortie sur lesquelles vous souhaitez effectuer le rapprochement flou dans les listes Input key attribute et Lookup key attribute, respectivement grp et firstname dans cet exemple.
  6. Cliquez dans la première cellule de la colonne Matching type, et sélectionnez dans la liste la méthode à utiliser pour vérifier les données entrantes par rapport aux données de référence, Exact match dans cet exemple. Il n'y a ni distance minimale ni distance maximale à définir.
  7. Paramétrez le type de correspondance pour la seconde colonne, Levenshtein dans cet exemple.
  8. Paramétrez ensuite les distances minimale et maximale. Dans cette méthode, la distance est le nombre de modifications devant être apporté aux caractères (insertion, suppression ou substitution) afin de correspondre entièrement aux références. Dans cet exemple, l'objectif est de faire en sorte que la distance minimale soit de 0 et que la distance maximale soit de 2. Cela aura pour conséquence d'écrire en sortie toutes les entrées de la colonne firstname correspondant exactement, ou celles ayant au maximum deux changements de caractères à effectuer.