Calculer les paires suspectes et les enregistrements uniques - 7.1

Continuous matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
EnrichPlatform
Studio Talend
Talend Data Stewardship

Procédure

  1. Double-cliquez sur le premier composant tFileOutputDelimited pour afficher sa vue Basic settings et configurer ses propriétés.
    Vous avez déjà accepté la propagation du schéma aux composants de sortie lorsque vous avez configuré le composant d'entrée.
  2. Décochez la case Define a storage configuration component pour utiliser le système local comme votre système de fichiers cible.
  3. Cliquez sur [...] à côté du bouton Edit schema et utilisez le bouton [+] dans la boîte de dialogue pour ajouter les colonnes du schéma du jeu de données de références au schéma.

    Vous devez ajouter _ref à la fin des noms des colonnes à ajouter à la sortie comportant les doublons suspects. Dans cet exemple : Original_id_ref, Source_ref, Site_name_ref et Address_ref.

  4. Dans le champ Folder, configurez le chemin d'accès au dossier où vous souhaitez générer les fichiers de sortie.
  5. Dans la liste Action sélectionnez l'opération d'écriture de données :
    • sélectionnez Create lorsque vous exécutez votre Job pour la première fois ;
    • sélectionnez Overwrite afin de remplacer les fichiers à chaque exécution du Job.
  6. Configurez les séparateurs de lignes et de champs dans les champs correspondants.
  7. Cochez la case Merge results to single file et, dans le champ Merge file path, configurez le chemin vers l'emplacement où écrire le fichier des paires d'enregistrements suspects.
  8. Double-cliquez sur le second tFileOutputDelimited et configurez ses propriétés dans la vue Basic settings, comme pour le premier composant.
    Ce composant crée le fichier contenant les lignes uniques générées depuis les données d'entrée.
  9. Appuyez sur F6 afin de sauvegarder et exécuter le Job.

Résultats

Le tMatchIndexPredict regroupe les enregistrements issus des données d'entrée et les enregistrements de correspondance, issus du jeu de données de référence stocké dans Elasticsearch, puis libelle les paires suspectes.
Le tMatchIndexPredict exclut les enregistrements uniques afin de les écrire dans un fichier séparé.

Vous pouvez maintenant nettoyer et dédoublonner les enregistrements uniques, puis utiliser le tMatchIndex afin de les ajouter au jeu de données de référence stocké dans Elasticsearch.