Datamart de qualité des données - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Le datamart de qualité des données Talend contient les analyses et les rapports exécutés dans le Studio Talend. Les données sont stockées dans un schéma en étoile, composés de tables de faits et de tables de dimension associées.

Le datamart de qualité des données facilite l'accès aux données issues des analyses et des rapports dans le but de faire une analyse historique des données. Afin de partager les rapports avec d'autres équipes ou des utilisateurs professionnels, vous pouvez utiliser le Talend Data Quality Portal qui permet de se connecter au datmart de qualité des données.

Vous pouvez utiliser le Modèle Physique des Données (MPD) de Qualité de données Talend pour créer vos propres rapports spécifiques avec l'outil JasperReports, et les utiliser lorsque vous créez des rapports personnalisés dans le Studio Talend.

Vous pouvez également connecter ce datamart à vos propres outils de reporting, comme Tableau Software, et trouver les informations relatives à la qualité des données dans votre propre environnement de Business Intelligence.

L'interface de la solution de Qualité de données Talend inclut des tables de faits et de dimension.

Tables de faits :

  • TDQ_INDICATOR_VALUE : valeur de l'indicateur.

  • TDQ_OVERVIEW_INDVALUE : analyses d'ensemble.

  • TDQ_MATCH_INDVALUE : analyses de comparaison.

  • TDQ_SET_INDVALUE : analyses d'un ensemble de colonnes.

  • TDQ_MATCHING_INDVALUE : analyses de rapprochement.

  • TDQ_GROUP_STATISTICS : table stockant les statistiques de groupe.

Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND) indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

Tables de dimension :

  • TDQ_ANALYSIS : instance d'analyse dans un rapport (ce qui signifie que la clé fonctionnelle est formée de l'ID du rapport et de l'ID de l'analyse).

TDQ_INDICATOR_DEFINITION : définition d'indicateur (nombre de lignes, table de fréquence...). TDQ_ANALYZED_ELEMENT : élément analysé (généralement une colonne). Pour plus d'informations, consultez http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2 (en anglais).

Les tables de dimension doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND) indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).

La capture d'écran ci-dessous vous montre la manière dont est conçu le MPD de la solution de Qualité de données Talend. TDQ_OVERVIEW_INDValue : table de faits pour les indicateurs de vue d'ensemble des tables, schémas et catalogues.

TDQ_PRODUCT : informations concernant la plateforme TDQ utilisée.