Par quoi commencer ?

Talend Open Studio for MDM Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for MDM
task
Gouvernance de données
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Le Studio Talend vous permet d'examiner des données et de collecter des statistiques et des informations concernant les données disponibles dans les colonnes des bases de données et dans des fichiers délimités.

Dans la perspective Profiling, vous pouvez :

  • créer une analyse de colonnes à partir de rien et configurer manuellement ses paramètres,

  • créer automatiquement des analyses de colonnes préconfigurées avec les indicateurs appropriés au type sélectionné,

Pour créer une analyse de colonnes :

  1. Dans la vue DQ Repository, développez Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

  3. Dans le dossier Column Analysis, sélectionnez :

    Option

    Pour...

    Basic Column Analysis (analyse de colonnes simple)

    générer une analyse de colonnes vide dans laquelle vous pouvez sélectionner les colonnes à analyser et leur assigner manuellement les indicateurs.

    Pour plus d'informations, consultez Créer une analyse simple sur une colonne d'une base de données.

    Discrete Data Analysis (analyse de données discrètes)

    créer une analyse de colonnes sur des données numériques préconfigurées avec les indicateurs Bin Frequency et Simple Statistics. Vous pouvez configurer plus l'analyse ou la modifier afin de convertir des données continues en données discrètes (écarts) selon vos besoins.

    Pour plus d'informations, consultez Analyse de données discrètes.

    Nominal Values Analysis (analyse de valeurs nominales)

    créer une analyse de colonnes sur des données nominales préconfigurées avec des indicateurs appropriés pour les données nominales, les indicateurs Value Frequency, Simple Statistics et Text Statistics.

    Pour des résultats d'exemple relatifs à ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

    Pattern Frequency Analysis (analyse de fréquence des modèles)

    créer une analyse de colonnes préconfigurée avec les indicateurs Pattern Frequency, Pattern Low Frequency, ainsi que les comptes de lignes et de nulls.

    Cette analyse peut découvrir des modèles au sein de vos données. Elle montre les modèles fréquents et les modèles rares, afin que vous puissiez identifier les problèmes de qualité de données plus facilement.

    Pour des résultats d'exemple relatifs à ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

    Summary Statistics Analysis (analyse de résumé statistique)

    créer une analyse de colonnes sur des données numériques préconfigurées avec l'indicateur Summary Statistics et les comptes des lignes et des nulls.

    Cela vous permet d'avoir une bonne idée de la forme de vos données numériques en calculant l'écart, l'écart interquartile et les valeurs médiane et moyenne.

    Pour un exemple d'utilisation du résumé statistique, consultez Définir des indicateurs système ou personnalisés et Finaliser et exécuter l'analyse de colonnes.

Les étapes du profiling de données d'une ou plusieurs colonnes sont les suivantes :

  1. Connexion à la source de données. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

  2. Définition d'une ou plusieurs colonne(s) sur laquelle (lesquelles) exécuter les processus de profiling de données qui définiront le contenu, la structure et la qualité des données de la (des) colonne(s).

  3. Configuration des paramètres des indicateurs système prédéfinis ou personnalisés sur la (les) colonne(s) à analyser ou à monitorer. Ces indicateurs représenteront les résultats atteints grâce à l'implémentation de différents modèles.

  4. Ajout aux colonnes des modèles par rapport auxquels vous souhaitez définir le contenu, la structure et la qualité des données.

Créer une analyse simple sur une colonne d'une base de données explique les procédures d'analyse de contenu d'une ou plusieurs colonne(s) dans une base de données.

Création d'une analyse de colonnes simple dans un fichier explique les procédures d'analyse des colonnes dans des fichiers délimités.