Accéder au contenu principal Passer au contenu complémentaire

Définir l'ensemble de colonnes à analyser

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling du Studio Talend.

Procédure

  1. Dans la vue DQ Repository, développez le nœud Data Profiling et cliquez-droit sur Analyses.
  2. Sélectionnez New Analysis. L'assistant Create New Analysis s'ouvre.
  3. Commencez à saisir column set analysis, sélectionnez Column Set Analysis puis cliquez sur Next.
  4. Saisissez un nom.
  5. Facultatif : Configurez les métadonnées de l'analyse de colonnes (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants.
  6. Cliquez sur Next pour sélectionner la base de données à laquelle vous connecter.
  7. Développez DB connections.
  8. Dans la base de données de votre choix, parcourez l'arborescence jusqu'aux colonnes à analyser, sélectionnez-les et cliquez sur Finish pour fermer l'assistant.
    Dans cet exemple, vous souhaitez analyser un ensemble de six colonnes dans la table customer : numéro de compte (account_num), scolarité (education), e-mail (email), prénom (fname), nom de famille (Iname) et sexe (gender). Les statistiques présentées dans les résultats d'analyse sont le nombre de lignes, de valeurs distinctes, de valeurs uniques et de valeurs en doublon s'appliquant sur tous les enregistrements (valeurs d'un ensemble de colonnes).
    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.
    Vue d'ensemble de l'aperçu des données (Data Preview) dans l'onglet Analysis Settings (Paramètres d'analyse).
    Des données d'exemple sont affichées dans la zone Data Preview et les colonnes sélectionnées sont affichées dans la zone Analyzed Column de l'éditeur de l'analyse.

    Dans cet exemple, vous souhaitez analyser un ensemble de six colonnes dans la table customer : numéro de compte (account_num), études (education), e-mail (email), prénom (fname), nom de famille (Iname) et genre (gender). Les statistiques présentées dans les résultats d'analyse sont le nombre de lignes, de valeurs distinctes, de valeurs uniques et de valeurs en doublon s'appliquant sur tous les enregistrements (valeurs d'un ensemble de colonnes).

  9. Dans la zone Data preview, sélectionnez :
    Option Résultats
    New Connection Ouvrir un assistant et créer ou modifier une connexion à la source de données depuis l'éditeur.

    Le champ Connection en haut de cette section liste toutes les connexions créées dans le Studio Talend.

    Select Columns Ouvrir la boîte de dialogue Column Selection dans laquelle vous pouvez sélectionner les colonnes à analyser ou modifier la sélection des colonnes listées dans la table.

    Dans la boîte de dialogue ouverte, vous pouvez filtrer la liste des tables ou des colonnes à l'aide des champs Table filter et Column filter, respectivement.

    n first rows ou n random rows Lister dans la table les N premiers enregistrements de données des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.
    Refresh Data Afficher les données dans les colonnes sélectionnées selon les critères définis.
    Run with sample data Exécuter l'analyse seulement sur le jeu de données d'exemple, dans le champ Limit.
  10. Dans le champ Limit (Limite), configurez le nombre d'enregistrements de données que vous souhaitez afficher dans la table et utiliser comme données d'exemple.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.