Datamart de qualité des données - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement

Le datamart de qualité des données Talend contient les analyses et les rapports exécutés dans le Studio Talend. Les données sont stockées dans un schéma en étoile, composés de tables de faits et de tables de dimension associées.

Vous pouvez utiliser le Modèle Physique des Données (MPD) de Talend Data Quality pour créer vos propres rapports spécifiques avec l'outil JasperReports, et les utiliser lorsque vous créez des rapports personnalisés dans le Studio Talend.

Vous pouvez également connecter ce datamart à vos propres outils de reporting, comme Tableau Software, et trouver les informations relatives à la qualité des données dans votre propre environnement de Business Intelligence.

L'interface de la solution de Talend Data Quality inclut des tables de faits et de dimension.

Tables de faits :

  • TDQ_INDICATOR_VALUE : valeur de l'indicateur.
  • TDQ_OVERVIEW_INDVALUE : analyses de vue d'ensemble.
  • TDQ_MATCH_INDVALUE : analyses de comparaison.
  • TDQ_SET_INDVALUE : analyses d'un ensemble de colonnes.
  • TDQ_MATCHING_INDVALUE : analyses de rapprochement.
  • TDQ_GROUP_STATISTICS : table stockant les statistiques de groupe de l'analyse de rapprochement.
  • TDQ_BLOCKING_KEY : table stockant la définition de la clé de bloc de l'analyse de rapprochement.
  • TDQ_MATCHING_KEY : table stockant la définition de la clé de rapprochement de l'analyse de rapprochement.

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

Tables de dimension :

  • TDQ_ANALYSIS : instance d'analyse dans un rapport (ce qui signifie que la clé fonctionnelle est formée de l'ID du rapport et de l'ID de l'analyse).

Comme les tables de dimensions contiennent des données qui changent lentement, les données historiques sont suivies en créant plusieurs enregistrements dans les tables dimensionnelles avec des clés séparées. De nouveaux registrements sont insérés chaque fois qu'un changement est effectué. Pour plus d'informations, consultez http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2 (en anglais).

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND)indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

La capture d'écran ci-dessous vous montre la manière dont est conçu le MPD de la solution de Talend Data Quality. TDQ_OVERVIEW_INDValue : table de faits pour les indicateurs de vue d'ensemble des tables, schémas et catalogues.

TDQ_PRODUCT : informations concernant la plateforme TDQ utilisée.