Afficher les résultats de rapprochement - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-13
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

Pour collecter les doublons du flux d'entrée selon le type de rapprochement défini, Levenshtein et Jaro-Winkler dans cet exemple, procédez comme suit :

Procédure

  1. Si vous traitez des ensembles de données volumineux, cochez la case Store on disk dans la vue Analysis parameter et :
    • dans le champ Max buffer size, saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.

    • Dans le champ Temporary data directory path, configurez le chemin d'accès au répertoire où stocker le fichier temporaire.

  2. Sauvegardez les paramètres dans l'éditeur d'analyse de rapprochement et appuyez sur la touche F6.
    L'analyse est exécutée. La règle de rapprochement et la clé de bloc sont calculées par rapport au jeu de données complet et la vue Analysis Results est ouverte dans l'éditeur.
    Dans cette vue, le graphique donne une vue d'ensemble concernant les doublons dans les données analysées. Dans la première table, vous pouvez voir les statistiques concernant le nombre d'enregistrements traités, les enregistrements distincts ayant une seule occurrence, les enregistrements en doublon (enregistrements rapprochés) et les enregistrements suspects ne correspondant pas à la règle. Les enregistrements en doublon représentent les enregistrements rapprochés avec un bon score - sous le seuil de confiance. L'un des enregistrement de la paire rapprochée est un doublon et devrait être supprimée, tandis que l'autre est l'enregistrement consolidé.
    Dans la seconde table, vous pouvez voir les statistiques concernant le nombre de chaque groupe et le nombre d'enregistrements dans chaque groupe. Vous pouvez cliquez sur la colonne de la table de votre choix pour trier les résultats.