Scénario : Effectuer un rapprochement flou entre deux colonnes et écrire en sortie les valeurs de correspondance, de correspondance possible, et de non correspondance (déprécié)

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Open Studio for ESB
Talend Data Fabric
Talend ESB
Talend Big Data Platform
Talend Big Data
Talend Open Studio for MDM
Talend Open Studio for Data Integration
Talend Real-Time Big Data Platform
Talend Data Integration
Talend MDM Platform
Talend Open Studio for Big Data
Talend Data Services Platform
Talend Data Management Platform
task
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario Java décrit un Job comprenant six composants, ayant pour but de :

  • faire correspondre chaque numéro de groupe de la colonne grp aux entrées ayant exactement les mêmes valeurs dans le fichier d'entrée de référence,

  • vérifier la distance d'édition entre les entrées de la colonne firstname d'un fichier d'entrée et du fichier d'entrée de référence.

Les sorties de ces deux types de correspondances sont écrites dans trois fichiers de sortie : le premier pour les valeurs de correspondances, le deuxième pour les valeurs de correspondances possibles, et le troisième pour les valeurs qui n'ont pas de correspondances dans le fichier de référence.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée principal et de référence, dans le Repository. Pour plus d'informations à propos du stockage des métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend

Le fichier d'entrée contient quatre colonnes : grp, gender, firstname, et count. Les données dans ce fichier d'entrée sont parfois en doublons, contiennent des noms écrits différemment, ou mal orthographiés, ou différentes informations sur un même client.