Par quoi commencer ? - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le Studio Talend vous permet d'examiner des données et de collecter des statistiques et des informations concernant les données disponibles dans les colonnes des bases de données et dans des fichiers délimités ou Excel.

Dans la perspective Profiling, vous pouvez :

  • créer une analyse de colonnes à partir de rien et configurer manuellement ses paramètres,

  • créer automatiquement des analyses de colonnes préconfigurées avec les indicateurs appropriés au type sélectionné,

  • utiliser l'assistant d'exploration sémantique (Semantic Discovery Wizard) pour configurer automatiquement une analyse de colonnes à partir des informations rassemblées dans le référentiel sémantique. Pour plus d'informations, consultez Exploration sémantique.

Pour créer une analyse de colonnes :

  1. Dans la vue DQ Repository, développez Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

  3. Dans le dossier Column Analysis, sélectionnez :

    Option

    Pour...

    Basic Column Analysis (analyse de colonnes simple)

    générer une analyse de colonnes vide dans laquelle vous pouvez sélectionner les colonnes à analyser et leur assigner manuellement les indicateurs.

    Pour plus d'informations, consultez Créer une analyse simple sur une colonne d'une base de données.

    Discrete Data Analysis (analyse de données discrètes)

    créer une analyse de colonnes sur des données numériques préconfigurées avec les indicateurs Bin Frequency Table et statistiques simples. Vous pouvez configurer plus l'analyse ou la modifier afin de convertir des données continues en données discrètes (écarts) selon vos besoins.

    Pour plus d'informations, consultez Analyse de données discrètes.

    Nominal Values Analysis (analyse de valeurs nominales)

    créer une analyse de colonnes sur des données nominales préconfigurées avec des indicateurs appropriés pour les données nominales, les indicateurs Frequency Table, Simple Statistics et Text Statistics.

    Pour des résultats d'exemple relatifs à ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

    Pattern Frequency Analysis (analyse de fréquence des modèles)

    créer une analyse de colonnes préconfigurée avec les indicateurs Pattern Frequency Table, Pattern Low Frequency Table, ainsi que les comptes de lignes et de nulls.

    Cette analyse peut découvrir des modèles au sein de vos données. Elle montre les modèles fréquents et les modèles rares, afin que vous puissiez identifier les problèmes de qualité de données plus facilement.

    Pour des résultats d'exemple relatifs à ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

    Semantic Discovery Analysis (analyse d'exploration sémantique)

    créer une analyse de colonnes préconfigurée avec des indicateurs et modèles convenant aux données après exploration des catégories sémantiques des colonnes de données et utilisation de concepts associés du référentiel sémantique.

    Pour plus d'informations, consultez Exploration sémantique.

    Summary Statistics Analysis (analyse de résumé statistique)

    créer une analyse de colonnes sur des données numériques préconfigurées avec l'indicateur Summary Statistics et les comptes des lignes et des nulls.

    Cela vous permet d'avoir une bonne idée de la forme de vos données numériques en calculant l'écart, l'écart interquartile et les valeurs médiane et moyenne.

    Pour un exemple d'utilisation du résumé statistique, consultez Définir des indicateurs système ou personnalisés et Finaliser et exécuter l'analyse de colonnes.

Les étapes du profiling de données d'une ou plusieurs colonnes sont les suivantes :

  1. Connexion à la source de données. Pour plus d'informations, consultez Avant de commencer à profiler vos données .

  2. Définition d'une ou plusieurs colonne(s) sur laquelle (lesquelles) exécuter les processus de profiling de données qui définiront le contenu, la structure et la qualité des données de la (des) colonne(s).

  3. Configuration des paramètres des indicateurs système prédéfinis ou personnalisés sur la (les) colonne(s) à analyser ou à monitorer. Ces indicateurs représenteront les résultats atteints grâce à l'implémentation de différents modèles.

  4. Ajout aux colonnes des modèles par rapport auxquels vous souhaitez définir le contenu, la structure et la qualité des données.

  5. Génération de rapports à partir de ces analyses et partage de leurs résultats parmi les membres d'une même équipe. Ces rapports vous permettent de comparer les statistiques historisées et les statistiques actuelles, afin de déterminer s'il y a eu amélioration ou dégradation. Pour plus d'informations, consultez Rapports

La Créer une analyse simple sur une colonne d'une base de données explique les procédures d'analyse de contenu d'une ou plusieurs colonne(s) dans une base de données.

La Création d'une analyse de colonnes simple dans un fichier explique les procédures d'analyse des colonnes dans des fichiers délimités ou Excel.

Le studio vous propose des modes de verrouillage vous permettant, si vous êtes le premier utilisateur à ouvrir un élément et de le verrouiller. Vous avez alors des droits en lecture écriture sur cet élément. Les autres utilisateurs qui ouvrent simultanément le même élément n'ont qu'un accès en lecture seule. Pour plus d'informations, consultez Travailler en équipe sur des éléments de qualité de données.