Datamart de qualité des données - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Disponible dans...

Big Data Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Le datamart de qualité des données Talend contient les analyses et les rapports exécutés dans le Studio Talend. Les données sont stockées dans un schéma en étoile, composés de tables de faits et de tables de dimension associées.

Vous pouvez utiliser le Modèle Physique des Données (MPD) de Talend Data Quality pour créer vos propres rapports spécifiques avec l'outil JasperReports, et les utiliser lorsque vous créez des rapports personnalisés dans le Studio Talend.

Vous pouvez également connecter ce datamart à vos propres outils de reporting, comme Tableau Software, et trouver les informations relatives à la qualité des données dans votre propre environnement de Business Intelligence.

L'interface de la solution de Talend Data Quality inclut des tables de faits et de dimension.

Tables de faits :

  • TDQ_INDICATOR_VALUE : valeur de l'indicateur.

  • TDQ_OVERVIEW_INDVALUE : analyses d'ensemble.

  • TDQ_MATCH_INDVALUE : analyses de comparaison.

  • TDQ_SET_INDVALUE : analyses d'un ensemble de colonnes.

  • TDQ_MATCHING_INDVALUE : analyses de rapprochement.

  • TDQ_GROUP_STATISTICS : table stockant les statistiques de groupe.

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

Tables de dimension :

  • TDQ_ANALYSIS : instance d'analyse dans un rapport (ce qui signifie que la clé fonctionnelle est formée de l'ID du rapport et de l'ID de l'analyse).

Comme les tables de dimensions contiennent des données qui changent lentement, les données historiques sont suivies en créant plusieurs enregistrements dans les tables dimensionnelles avec des clés séparées. De nouveaux registrements sont insérés chaque fois qu'un changement est effectué. Pour plus d'informations, consultez http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2 (en anglais).

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

La capture d'écran ci-dessous vous montre la manière dont est conçu le MPD de la solution de Talend Data Quality. TDQ_OVERVIEW_INDValue : table de faits pour les indicateurs de vue d'ensemble des tables, schémas et catalogues.

TDQ_PRODUCT : informations concernant la plateforme TDQ utilisée.