Configurer les composants - 7.3

Rapprochement flou

author
Talend Documentation Team
EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Procédure

  1. Configurez les paramètres du premier tFileInputDelimited dans sa vue Basic settings. Parcourez votre système jusqu'au fichier d'entrée à analyser.
  2. Définissez le schéma du composant. Dans cet exemple, le schéma d'entrée possède deux colonnes, firstname et gender.
  3. Configurez le second tFileInputDelimited de la même façon.
    Avertissement :

    Assurez-vous que la colonne de référence a bien été définie comme colonne clé dans le schéma du flux de référence (lookup).

  4. Double-cliquez sur le tFuzzyMatch pour ouvrir sa vue Basic settings et vérifiez son schéma.
    Le Schema doit correspondre à celui du flux d'entrée principal (Main) afin que le flux principal soit comparé au flux de référence.
    Notez que deux colonnes : Value et Matching sont ajoutées au schéma de sortie. Elles correspondent à des informations standards de correspondance et sont en lecture seule.
  5. Sélectionnez la méthode à utiliser pour la vérification des données entrantes. Dans ce scénario, la correspondance à sélectionner dans le champ Matching type est de type Levenshtein.
  6. Ensuite définissez la distance. Dans cette méthode, la distance est le nombre de caractères modifiés (insertion, suppression ou substitution) pour que l'entrée principale corresponde exactement à l'entrée de référence.
    Dans ce scénario, configurez la distance à 0 au minimum et au maximum dans les champs Min. distance et Max. distance. Ce qui signifie que seule une correspondance exacte sera redirigée en flux de sortie.
  7. Décochez la case Case sensitive.
  8. Vérifiez que la colonne de correspondance et la colonne de référence sont bien sélectionnées.
  9. Laissez les autres paramètres par défaut.