Générer une analyse sur les résultats d'une jointure pour analyser les doublons - Cloud

Générer une analyse sur les résultats d'une jointure pour analyser les doublons - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version

Cloud

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement

Last publication date

2024-04-16

Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Dans certains cas, lorsque vous analysez des tables de bases de données contenant des enregistrements en doublon et une clause de jointure, à l'aide d'une règle métier SQL, les résultats de la jointure indiquent qu'il y a plus de lignes dans la jointure que dans la table analysée.

La perspective dans le Studio vous permet de générer une analyse prête à l'emploi pour analyser ces enregistrements en doublon. Les résultats de cette analyse vous permettent de mieux comprendre la raison d'un nombre plus élevé d'enregistrements dans les résultats de la jointure que dans la table.

Avant de commencer

Une analyse de table contenant une règle métier SQL, avec une condition de jointure, doit avoir été configurée et exécutée dans la perspective Profiling du Studio Talend. Les résultats de la jointure montrent qu'il y a des doublons dans la table.

Pour plus d'informations, consultez Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure.

Procédure

Après avoir créé et exécuté une analyse de table avec des enregistrements en doublon, comme détaillé dans Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure, cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.
Cliquez-droit sur les résultats de la jointure dans la seconde table et sélectionnez Analyze duplicates.

La boîte de dialogue Column Selection s'ouvre sur les tables analysées sélectionnées par défaut.
Dans la boîte de dialogue, modifiez la sélection, si nécessaire, puis cliquez sur OK.
Deux analyses de colonnes sont générées et affichées dans le dossier Analyses de la vue DQ Repository.
Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
Les résultats d'analyse montrent deux barres, l'une représentant le nombre de lignes des enregistrements de données dans la colonne analysée, l'autre représente le nombre de doublons.
Cliquez sur Analysis Results au bas de l'éditeur d'analyse pour accéder à la vue détaillée des résultats.
Cliquez-droit sur le nombre de lignes ou de doublons dans la table, ou cliquez-droit sur la barre de résultats dans le graphique lui-même et sélectionnez une action à effectuer :
- View rows, pour ouvrir une vue sur la liste de toutes les lignes de données ou toutes les lignes en doublon dans la colonne analysée.
- View values, pour ouvrir une vue sur la liste de toutes les valeurs de données dupliquées dans la colonne analysée.
- Identify duplicates pour générer un Job prêt à l'emploi identifiant et séparant les enregistrements uniques et les enregistrements en doublon dans la colonne sélectionnée, pour traitement. Ce Job écrit en sortie tous les doublons dans un fichier CSV de rejet par défaut et écrit les valeurs uniques dans un autre fichier séparé.