Effectuer un rapprochement flou entre deux colonnes et écrire en sortie les valeurs de correspondance, de correspondance possible, et de non correspondance (déprécié) - 6.5

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux produits Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario Java décrit un Job comprenant six composants, ayant pour but de :

  • faire correspondre chaque numéro de groupe de la colonne grp aux entrées ayant exactement les mêmes valeurs dans le fichier d'entrée de référence,

  • vérifier la distance d'édition entre les entrées de la colonne firstname d'un fichier d'entrée et du fichier d'entrée de référence.

Les sorties de ces deux types de correspondances sont écrites dans trois fichiers de sortie : le premier pour les valeurs de correspondances, le deuxième pour les valeurs de correspondances possibles, et le troisième pour les valeurs qui n'ont pas de correspondances dans le fichier de référence.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée principal et de référence, dans le Repository. Pour plus d'informations à propos du stockage des métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend

Le fichier d'entrée contient quatre colonnes : grp, gender, firstname, et count. Les données dans ce fichier d'entrée sont parfois en doublons, contiennent des noms écrits différemment, ou mal orthographiés, ou différentes informations sur un même client.