Exécuter le Job - 7.1

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Procédure

Sauvegardez votre Job et cliquez sur F6 pour l'exécuter.

Résultats

Le tFuzzyUniqRow utilise la méthode de Levenshtein pour comparer séparément chacune des trois colonnes définies, il utilise la méthode du Double Metaphone, afin de comparer les données de la colonne City, puis passer la ligne unique et les doublons aux fichiers de sortie définis. Dans notre exemple, les deux premières lignes correspondent, cependant, la deuxième ligne ira dans la sortie duplicates.

La colonne FID générée fournit un identifiant de référence de l'enregistrement original auquel se réfère l'enregistrement actuel.

La troisième ligne est unique et ira dans la sortie uniques.

La colonne UID générée contient les identifiants générés pour l'enregistrement principal.