Générer une analyse sur les résultats d'une jointure pour analyser les doublons - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Dans certains cas, lorsque vous analysez des tables de bases de données à l'aide d'une règle métier SQL contenant une clause de jointure, les résultats de la jointure présentent des enregistrements en doublon dans la table, consultez .

Les colonnes de la table analysée présentent des enregistrements en doublon. Pour voir un exemple, consultez Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure.

La perspective dans le Studio vous permet de générer une analyse prête à l'emploi pour analyser ces enregistrements en doublon. Les résultats de cette analyse vous permettent de mieux comprendre la raison d'un nombre plus élevé d'enregistrements dans les résultats de la jointure que dans la table.

Avant de commencer

Une analyse de table contenant une règle métier SQL, avec une condition de jointure, doit avoir été configurée et exécutée dans la perspective Profiling du Studio. Les résultats de la jointure montrent qu'il y a des doublons dans la table. Pour plus d'informations, consultez Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure.

Procédure

  1. Après avoir créé et exécuté une analyse de table avec des enregistrements en doublon, comme détaillé dans Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure, cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.
  2. Cliquez-droit sur les résultats de la jointure dans la seconde table et sélectionnez Analyze duplicates.

    La boîte de dialogue [Column Selection] s'ouvre sur les tables analysées sélectionnées par défaut.

  3. Dans la boîte de dialogue, modifiez la sélection, si nécessaire, puis cliquez sur OK.
    Deux analyses de colonnes sont générées et affichées dans le dossier Analyses de la vue DQ Repository.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    Les résultats d'analyse montrent deux barres, l'une représentant le nombre de lignes des enregistrements de données dans la colonne analysée, l'autre représente le nombre de doublons.
  5. Cliquez sur Analysis Results au bas de l'éditeur d'analyse pour accéder à la vue détaillée des résultats.
  6. Cliquez-droit sur le nombre de lignes ou de doublons dans la table, ou cliquez-droit sur la barre de résultats dans le graphique lui-même et sélectionnez :

    Option

    Pour...

    View rows

    ouvrir une vue sur une liste des toutes les lignes de données ou toutes les lignes en doublon dans la colonne analysée.

    View values

    ouvrir une vue sur une liste des valeurs des données en doublon dans la colonne analysée.

    Identify duplicates

    Générer un Job prêt à l'emploi identifiant et séparant les enregistrements uniques et les enregistrements en doublon dans la colonne sélectionnée, pour traitement. Ce Job écrit en sortie tous les doublons dans un fichier .csv de rejet par défaut et écrit les valeurs uniques dans un autre fichier séparé. Pour plus d'informations, consultez Générer un Job identifiant les valeurs en doublon d'une colonne analysée.