Datamart de qualité des données - 7.3

Guide d'utilisation de Talend Data Fabric Studio

Version
7.3
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Studio Talend
Content
Création et développement

Le datamart de qualité des données Talend contient les analyses et les rapports exécutés dans le Studio Talend. Les données sont stockées dans un schéma en étoile, composés de tables de faits et de tables de dimension associées.

Vous pouvez utiliser le Modèle Physique des Données (MPD) de Talend Data Quality pour créer vos propres rapports spécifiques avec l'outil JasperReports, et les utiliser lorsque vous créez des rapports personnalisés dans le Studio Talend.

Vous pouvez également connecter ce datamart à vos propres outils de reporting, comme Tableau Software, et trouver les informations relatives à la qualité des données dans votre propre environnement de Business Intelligence.

L'interface de la solution de Talend Data Quality inclut des tables de faits et de dimension.

Tables de faits :

  • TDQ_INDICATOR_VALUE : valeur de l'indicateur.

  • TDQ_OVERVIEW_INDVALUE : analyses d'ensemble.

  • TDQ_MATCH_INDVALUE : analyses de comparaison.

  • TDQ_SET_INDVALUE : analyses d'un ensemble de colonnes.

  • TDQ_MATCHING_INDVALUE : analyses de rapprochement.

  • TDQ_GROUP_STATISTICS : table stockant les statistiques de groupe.

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

Tables de dimension :

  • TDQ_ANALYSIS : instance d'analyse dans un rapport (ce qui signifie que la clé fonctionnelle est formée de l'ID du rapport et de l'ID de l'analyse).

Comme les tables de dimensions contiennent des données qui changent lentement, les données historiques sont suivies en créant plusieurs enregistrements dans les tables dimensionnelles avec des clés séparées. De nouveaux registrements sont insérés chaque fois qu'un changement est effectué. Pour plus d'informations, consultez http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2 (en anglais).

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

La capture d'écran ci-dessous vous montre la manière dont est conçu le MPD de la solution de Talend Data Quality. TDQ_OVERVIEW_INDValue : table de faits pour les indicateurs de vue d'ensemble des tables, schémas et catalogues.

TDQ_PRODUCT : informations concernant la plateforme TDQ utilisée.