Accéder au contenu principal Passer au contenu complémentaire

Définir les colonnes à analyser dans un fichier

La première étape lors de l'analyse du contenu d'une ou plusieurs colonne·s est de définir la·es colonne·s à analyser. Les résultats d'analyse fournissent des statistiques concernant les valeurs dans chaque colonne.

Lorsque vous choisissez d'analyser des colonnes de type Date et que vous exécutez l'analyse avec un moteur Java, les informations de date sont stockées dans le Studio Talend et dans le datamart au format de date YYYY-MM-DD HH:mm:ss et d'heure HH:mm:ss.SSS. Les formats de date et heure sont légèrement différents lorsque vous exécutez l'analyse avec un moteur SQL.

Avant de commencer, vous devez avoir défini au moins une connexion à un fichier délimité dans la perspective Profiling du Studio Talend.

Définir l'analyse de colonnes

Procedure

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.
  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.
    Menu contextuel du nœud Analyses.

    L'assistant Create New Analysis s'ouvre.

    Assistant Create new analysis (Créer une analyse)
  3. Dans le champ de filtre, commencez à saisir basic column analysis (analyse simple de colonne), sélectionnez Basic Column Analysis et cliquez sur Next.
  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne.
    Note InformationsImportant:

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  5. Configurez les métadonnées de l'analyse de colonnes (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants, puis cliquez sur Next.

Sélectionner les colonnes du fichier et configurer les données d'exemple

Procedure

  1. Développez le nœud FileDelimited connections puis parcourez l'arborescence jusqu'à la (les) colonne(s) que vous souhaitez analyser.
    Dans cet exemple, vous souhaitez analyser les colonnes id, first_name et age dans la connexion sélectionnée.
  2. Sélectionnez les colonnes et cliquez sur Finish pour fermer l'assistant.
    Un fichier pour la nouvelle analyse de colonnes s'affiche sous le nœud Analysis de la vue DQ Repository et l'éditeur d'analyse s'ouvre sur les métadonnées de cette analyse.
    Vue d'ensemble de la section Data Preview (Aperçu des données).
  3. Dans la vue Data preview, cliquez sur Refresh Data.
    Les données des colonnes sélectionnées sont affichées dans la table.
    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Columns, respectivement.
  4. Dans le champ Limit, configurez le nombre d'enregistrements de données que vous souhaitez afficher dans la table et utiliser comme données d'exemple.
    50 enregistrements par exemple.
  5. Sélectionnez n first rows afin de lister les 50 premiers enregistrements de la colonne sélectionnée.
  6. Dans la section Analyzed Columns (Colonnes analysées), utilisez les flèches dans le coin supérieur droit pour ouvrir différentes pages dans la vue si vous souhaitez analyser un grand nombre de colonnes.
    Vous pouvez déposer les colonnes à analyser directement de la vue DQ Repository (Référentiel DQ) à la liste Analyzed Columns (Colonnes analysées).
  7. Utilisez les boutons de suppression, de déplacement vers le haut ou vers le bas pour gérer les colonnes analysées.
  8. Si nécessaire, cliquez-droit sur une colonne listée dans la section Analyzed Columns (Colonnes analysées) et sélectionnez Show in DQ Repository view (Afficher dans la vue Référentiel DQ) pour la localiser dans la connexion à la base de données, dans l'arborescence DQ Repository (Référentiel DQ).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.