Configurer une analyse de rapprochement - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Procédure

  1. Dans le champ Limit, définissez le nombre d'enregistrements de données à utiliser comme échantillon de données.
    Capture d'écran de la vue Match Analysis (Analyse de rapprochement).
  2. Facultatif : Cliquez sur le nom de colonne de votre choix dans cette table pour trier l'échantillon de données par ordre croissant ou décroissant.
  3. Dans l'éditeur d'analyse de rapprochement, configurez les options.
    Option Purpose (Objectif)
    Icône Afficher dans le référentiel Data Quality Sélectionner la table sous le nœud Metadata de l'arborescence.
    New Connection (Nouvelle connexion) Créer une connexion à une base de données ou à un fichier depuis l'éditeur d'analyse de rapprochement dans lequel vous pouvez développer cette nouvelle connexion et sélectionnez les colonnes sur lesquelles effectuer le rapprochement.

    Pour plus d'informations concernant la création d'une connexion à des sources de données, consultez Créer des connexions aux différentes sources de données.

    Select Data (Sélectionner les données) Mettre à jour la sélection des colonnes listées dans la table.

    Si vous modifiez le jeu de données pour une analyse, les diagrammes affichant les résultats de rapprochement des données d'exemple sont automatiquement effacés. Vous devez cliquer sur Chart afin de calculer les résultats de rapprochement pour le nouveau jeu de données défini.

    Refresh Data (Actualiser les données) Actualiser la vue des colonnes listées dans la table.
    n first rows (n premières lignes)

    ou

    n random rows (n lignes aléatoires)

    Lister dans la table les N premiers enregistrements de données des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.
    Select Blocking Key (Sélectionner la clé de bloc) Définir les colonnes du flux d'entrée selon lesquelles vous souhaitez partitionner les données traitées en blocs.

    Pour plus d'informations, consultez Définir une règle de rapprochement.

    Select Matching Key Définir les règles de rapprochement et les colonnes du flux d'entrée sur lesquelles vous souhaitez appliquer l'algorithme de rapprochement.

    Pour plus d'informations, consultez Définir une règle de rapprochement.

    Store on disk (Stocker sur le disque) Stocker les blocs de données traités sur le disque afin d'optimiser les performances système.

    Max buffer size : Saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.

    Temporary data directory path : Configurez le chemin d'accès au répertoire où stocker le fichier temporaire.

    Allow drill down : choisissez d'activer la fonctionnalité View rows dans l'onglet Analysis Results. Elle affiche la liste des lignes ou groupes en doublon faisant la même taille. Pour plus d'informations, consultez Voir et exporter les données analysées.

Résultats

La table Data Preview (Aperçu des données) contient des colonnes supplémentaires affichant les résultats des données en correspondance :
  • GID : représente l'identifiant du groupe.
  • GRP_SIZE : compte le nombre d'enregistrements dans le groupe. Le calcul se fait uniquement sur l'enregistrement maître.
  • MASTER : indique, par true ou false, si l'enregistrement utilisé dans la comparaison est un enregistrement maître. Il y a au moins un enregistrement maître par groupe.

    Chaque enregistrement d'entrée est comparé à l'enregistrement maître. S'ils correspondent, l'enregistrement d'entrée sera inclus dans le groupe.

  • SCORE : mesure la distance entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de rapprochement utilisé.
  • GRP_QUALITY : seul l'enregistrement maître possède un score de qualité représentant la valeur minimale du groupe.
  • ATTRIBUTE_SCORE : liste le score de rapprochement et le nom des colonnes utilisées comme attributs de clés dans les règles appliquées.