Disponible dans...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Dans certains cas, lorsque vous analysez des tables de bases de données contenant des enregistrements en doublon et une clause de jointure, à l'aide d'une règle métier SQL, les résultats de la jointure indiquent qu'il y a plus de lignes dans la jointure que dans la table analysée.
La perspective dans le Studio vous permet de générer une analyse prête à l'emploi pour analyser ces enregistrements en doublon. Les résultats de cette analyse vous permettent de mieux comprendre la raison d'un nombre plus élevé d'enregistrements dans les résultats de la jointure que dans la table.
Procédure
-
Après avoir créé et exécuté une analyse de table avec des enregistrements en doublon, comme détaillé dans Créer une analyse de table avec une règle métier SQL comprenant une condition de jointure, cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.
-
Cliquez-droit sur les résultats de la jointure dans la seconde table et sélectionnez Analyze duplicates.
La boîte de dialogue [Column Selection] s'ouvre sur les tables analysées sélectionnées par défaut.
-
Dans la boîte de dialogue, modifiez la sélection, si nécessaire, puis cliquez sur OK.
Deux analyses de colonnes sont générées et affichées dans le dossier
Analyses de la vue
DQ Repository.
-
Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
Les résultats d'analyse montrent deux barres, l'une représentant le nombre de lignes des enregistrements de données dans la colonne analysée, l'autre représente le nombre de doublons.
-
Cliquez sur Analysis Results au bas de l'éditeur d'analyse pour accéder à la vue détaillée des résultats.
-
Cliquez-droit sur le nombre de lignes ou de doublons dans la table, ou cliquez-droit sur la barre de résultats dans le graphique lui-même et sélectionnez :
Option |
Pour... |
View rows
|
ouvrir une vue sur une liste des toutes les lignes de données ou toutes les lignes en doublon dans la colonne analysée. |
View values |
ouvrir une vue sur une liste des valeurs des données en doublon dans la colonne analysée. |
Identify duplicates |
Générer un Job prêt à l'emploi identifiant et séparant les enregistrements uniques et les enregistrements en doublon dans la colonne sélectionnée, pour traitement. Ce Job écrit en sortie tous les doublons dans un fichier CSV de rejet par défaut et écrit les valeurs uniques dans un autre fichier séparé. |