Configurer le composant tBlockedFuzzyJoin - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Double-cliquez sur le tBlockedFuzzyJoin afin d'afficher sa vue Basic settings et définir ses propriétés.
  2. Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir la structure des données des fichiers d'entrée, et définir les données que vous souhaitez passer aux composants de sortie.

    Dans cet exemple, l'objectif est de passer les quatre colonnes d'entrée aux composants de sortie, en plus de la nouvelle colonne ref_firstname.

  3. Cliquez sur OK pour fermer la boîte de dialogue.
  4. Dans la zone Key definition de la vue Basic settings du tBlockedFuzzyJoin, cliquez deux fois sur le bouton [+] afin d'ajouter deux colonnes à la liste.
  5. Sélectionnez les colonnes d'entrée et de sortie sur lesquelles vous souhaitez effectuer le rapprochement flou dans les listes Input key attribute et Lookup key attribute, respectivement grp et firstname dans cet exemple.
  6. Cliquez dans la première cellule de la colonne Matching type, et sélectionnez dans la liste la méthode à utiliser pour vérifier les données entrantes par rapport aux données de référence, Exact match dans cet exemple. Il n'y a ni distance minimale ni distance maximale à définir.
  7. Paramétrez le type de correspondance pour la seconde colonne, Levenshtein dans cet exemple.
  8. Définissez ensuite les distances minimale et maximale. Dans cette méthode, la distance est le nombre de changements de caractères (insertion, suppression ou substitution) devant être effectués pour que l'entrée corresponde entièrement à la référence. Dans cet exemple, l'objectif est de faire en sorte que la distance minimale soit de 0 et que la distance maximale soit de 2. Cela aura pour conséquence d'écrire en sortie toutes les entrées de la colonne firstname correspondant exactement, ou celles ayant au maximum deux changements de caractères à effectuer.