Configurer le Job - 7.1

Fuzzy matching

author
Talend Documentation Team
EnrichVersion
Cloud
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
EnrichPlatform
Studio Talend

Procédure

  1. Dans l'arborescence du Repository, développez le nœud Metadata ainsi que le nœud des fichiers (File) où vous avez stocké les schémas d'entrée, et glissez la métadonnée correspondante dans l'espace de modélisation graphique.
    La boîte de dialogue Components s'ouvre.
  2. Sélectionnez tFileInputDelimited dans la liste et cliquez sur OK afin de fermer la boîte de dialogue.
    Le composant tFileInputDelimited apparaît dans l'espace de modélisation. Le fichier d'entrée utilisé dans ce scénario est appelé ClientSample. Il contient douze colonnes, y compris les deux colonnes IdCient et Email sur lesquelles vous voulez appliquer le rapprochement flou.
  3. Répétez l'opération pour le deuxième fichier d'entrée que vous souhaitez utiliser comme référence, ClientSample_Update dans ce scénario.
  4. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tFuzzyJoin, tFileOutputExcel, et tFileOutputDelimited.
  5. Connectez les fichiers principal et de référence au tFuzzyJoin à l'aide de liens Main Row. Le lien principal entre le fichier de référence et le tFuzzyJoin s'affiche comme un lien Lookup (de référence) dans l'espace de modélisation.
  6. Connectez le tFuzzyJoin au tFileOutputExcel à l'aide d'un lien Main, et le tFuzzyJoin au tFileOutputDelimited avec un lien Inner join reject.
  7. Au besoin, double-cliquez sur les fichiers d'entrée principal et de référence afin d'afficher leur vue Basic settings. Toutes les propriétés sont automatiquement renseignées. Si vous ne définissez pas vos fichiers d'entrée dans le Repository, remplissez les champs manuellement, après avoir sélectionné Built-in dans le champ Property Type.