Accéder au contenu principal Passer au contenu complémentaire

Par quoi commencer ?

Le Studio Talend vous permet d'examiner des données et de collecter des statistiques et des informations concernant les données disponibles dans les colonnes des bases de données et dans des fichiers délimités.

Dans la perspective Profiling , vous pouvez :

  • créer une analyse de colonnes à partir de rien et configurer manuellement ses paramètres,
  • créer automatiquement des analyses de colonnes préconfigurées avec les indicateurs appropriés au type sélectionné,
  • utiliser l'assistant d'exploration sémantique (Semantic-aware Analysis Wizard) pour configurer automatiquement une analyse de colonnes à partir des informations rassemblées dans le référentiel sémantique. Pour plus d'informations, consultez Étapes d'utilisation de l'analyse sémantique.

Procédure

  1. Créez une analyse de colonnes :
    1. Dans la vue DQ Repository, développez le nœud Data Profiling.
    2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.
    3. Dans le dossier Column Analysis, sélectionnez une option :
      Option Résultats
      Basic Column Analysis générer une analyse de colonnes vide dans laquelle vous pouvez sélectionner les colonnes à analyser et leur attribuer manuellement les indicateurs.

      Pour plus d'informations, consultez Créer une analyse simple sur une colonne d'une base de données.

      Discrete Data Analysis créer une analyse de colonnes sur des données numériques préconfigurées avec les indicateurs Bin Frequency et Simple Statistics. Vous pouvez configurer plus l'analyse ou la modifier afin de convertir des données continues en données discrètes (écarts) selon vos besoins.

      Pour plus d'informations, consultez Analyse de données discrètes.

      Nominal Values Analysis (analyse de valeurs nominales) créer une analyse de colonnes sur des données nominales préconfigurées avec des indicateurs appropriés pour les données nominales, les indicateurs Value Frequency, Simple Statistics et Text Statistics.

      Pour des exemples de résultats sur ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

      Pattern Frequency Analysis créer une analyse de colonnes préconfigurée avec les indicateurs Pattern Frequency, Pattern Low Frequency, ainsi que les comptes de lignes et de nulls.

      Cette analyse peut acquérir des connaissances au sujet des modèles dans vos données. Elle montre les modèles fréquents et les modèles rares, afin que vous puissiez identifier les problèmes de qualité de données plus facilement.

      Pour des exemples de résultats sur ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.

      Semantic Discovery Analysis (analyse d'exploration sémantique) créer une analyse de colonnes préconfigurée avec des indicateurs et modèles convenant aux données après exploration des catégories sémantiques des colonnes de données et utilisation de concepts associés du référentiel sémantique.

      Pour plus d'informations, consultez Étapes d'utilisation de l'analyse sémantique.

      Summary Statistics Analysis (analyse de résumé statistique) créer une analyse de colonnes sur des données numériques préconfigurées avec l'indicateur Summary Statistics et les comptes des lignes et des nulls.

      Cela vous permet d'avoir une bonne idée de la forme de vos données numériques en calculant l'écart, l'écart interquartile et les valeurs médiane et moyenne.

      Pour un exemple d'utilisation de Summary Statistics, consultez Définir des indicateurs système ou personnalisés et Finaliser et exécuter l'analyse de colonnes.

  2. Les étapes du profiling de données d'une ou plusieurs colonnes sont les suivantes :
    1. Connexion à la source de données. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.
    2. Définition d'une ou plusieurs colonnes sur lesquelles effectuer des processus de profiling de données.
      Cela permet de définir le contenu, la structure et la qualité des données des colonnes analysées.
    3. Configuration des paramètres des indicateurs système prédéfinis ou personnalisés sur les colonnes à analyser ou à monitorer.
      Ces indicateurs représenteront les résultats atteints grâce à l'implémentation de différents modèles.
    4. Ajout aux colonnes des modèles par rapport auxquels vous souhaitez définir le contenu, la structure et la qualité des données.
    5. Génération de rapports à partir de ces analyses et partage des résultats avec les membres d'une même équipe.
      Ces rapports vous permettent de comparer les statistiques actuelles et historiques afin de déterminer s'il y a eu amélioration ou détérioration des données. Pour plus d'informations, consultez Que sont les rapports ?.

Que faire ensuite

La section Créer une analyse simple sur une colonne d'une base de données explique les procédures d'analyse de contenu d'une ou de plusieurs colonnes dans une base de données.

La section Création d'une analyse de colonnes simple dans un fichier explique les procédures d'analyse de colonnes dans des fichiers délimités.

Studio Talend Le Studio vous propose des modes de verrouillage vous permettant, si vous êtes le·a premier·ère utilisateur·rice à ouvrir un élément et de le verrouiller. les autres utilisateurs et utilisatrices·rices qui ouvrent simultanément le même élément n'ont qu'un accès en lecture seule. Pour plus d'informations, consultez Principe de verrouillage.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.