Configurer les composants - 7.1

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Procédure

  1. Configurez les paramètres du premier tFileInputDelimited dans sa vue Basic settings. Parcourez votre système jusqu'au fichier d'entrée à analyser.
  2. Définissez le schéma du composant. Dans cet exemple, le schéma d'entrée possède deux colonnes, firstname et gender.
  3. Configurez le second tFileInputDelimited de la même façon.
    Avertissement :

    Assurez-vous que la colonne de référence a bien été définie comme colonne clé dans le schéma du flux de référence (lookup).

  4. Double-cliquez sur le tFuzzyMatch pour ouvrir sa vue Basic settings et vérifiez son schéma.
    Le schéma doit correspondre à celui du flux d'entrée principal (Main) afin que le flux principal soit comparé au flux de référence.
    Notez que deux colonnes : Value et Matching sont ajoutées au schéma de sortie. Elles correspondent à des informations standard de correspondance et sont en lecture seule.
  5. Sélectionnez la méthode à utiliser pour la vérification des données entrantes. Dans ce scénario, la correspondance à sélectionner dans le champ Matching type est de type Levenshtein.
  6. Ensuite définissez la distance. Dans cette méthode, la distance est le nombre de caractères modifiés (insertion, suppression ou substitution) pour que l'entrée principale corresponde exactement à l'entrée de référence.
    Dans ce scénario, configurez la distance à 0 au minimum et au maximum dans les champs Min. distance et Max. distance. Ce qui signifie que seule une correspondance exacte sera redirigée en flux de sortie.
  7. Décochez la case Case sensitive pour ne pas prendre en compte la casse.
  8. Vérifiez que la colonne de correspondance et la colonne de référence sont bien sélectionnées.
  9. Laissez les autres paramètres par défaut.