Générer une analyse sur les résultats d'une jointure pour analyser les doublons - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-13
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Dans certains cas, lorsque vous analysez des tables de bases de données contenant des enregistrements en doublon et une clause de jointure, à l'aide d'une règle métier SQL, les résultats de la jointure indiquent qu'il y a plus de lignes dans la jointure que dans la table analysée.

La perspective dans le Studio vous permet de générer une analyse prête à l'emploi pour analyser ces enregistrements en doublon. Les résultats de cette analyse vous permettent de mieux comprendre la raison d'un nombre plus élevé d'enregistrements dans les résultats de la jointure que dans la table.

Avant de commencer

Une analyse de table contenant une règle métier SQL, avec une condition de jointure, doit avoir été configurée et exécutée dans la perspective Profiling du Studio Talend. Les résultats de la jointure montrent qu'il y a des doublons dans la table.

Pour plus d'informations, consultez Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure.

Procédure

  1. Après avoir créé et exécuté une analyse de table avec des enregistrements en doublon, comme détaillé dans Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure, cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.
  2. Cliquez-droit sur les résultats de la jointure dans la seconde table et sélectionnez Analyze duplicates.

    La boîte de dialogue Column Selection s'ouvre sur les tables analysées sélectionnées par défaut.

  3. Dans la boîte de dialogue, modifiez la sélection, si nécessaire, puis cliquez sur OK.
    Deux analyses de colonnes sont générées et affichées dans le dossier Analyses de la vue DQ Repository.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    Les résultats d'analyse montrent deux barres, l'une représentant le nombre de lignes des enregistrements de données dans la colonne analysée, l'autre représente le nombre de doublons.
  5. Cliquez sur Analysis Results au bas de l'éditeur d'analyse pour accéder à la vue détaillée des résultats.
  6. Cliquez-droit sur le nombre de lignes ou de doublons dans la table, ou cliquez-droit sur la barre de résultats dans le graphique lui-même et sélectionnez :
    Option Pour...

    View rows

    ouvrir une vue sur une liste des toutes les lignes de données ou toutes les lignes en doublon dans la colonne analysée.
    View values ouvrir une vue sur une liste des valeurs des données en doublon dans la colonne analysée.
    Identify duplicates Générer un Job prêt à l'emploi identifiant et séparant les enregistrements uniques et les enregistrements en doublon dans la colonne sélectionnée, pour traitement. Ce Job écrit en sortie tous les doublons dans un fichier CSV de rejet par défaut et écrit les valeurs uniques dans un autre fichier séparé.