Définir les colonnes à analyser - 6.3

Talend Data Services Platform Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Data Services Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La première étape lors de l'analyse du contenu de fichiers délimités est de définir les colonnes à analyser.

Prérequis : Au moins une connexion à un fichier délimité doit être configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à un fichier.

Pour analyser une ou plusieurs colonne(s) dans un fichier délimité, procédez comme suit :

Définir l'analyse

  1. Dans l'arborescence DQ Repository, développez le dossier Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir Basic Column Analysis et cliquez sur Next. Si votre studio est en français, saisissez analyse simple de colonne.

  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Si nécessaire, renseignez les métadonnées de l'analyse, son objectif, dans le champ Purpose, sa Description et son auteur dans le champ Author) puis cliquez sur Next pour passer à l'étape suivante.

Sélectionner les colonnes du fichier et configurer les données d'exemple

  1. Développez le nœud FileDelimited connections puis parcourez l'arborescence jusqu'à la (les) colonne(s) que vous souhaitez analyser.

    Dans cet exemple, vous souhaitez analyser les colonnes id, first_name et age dans la connexion sélectionnée.

  2. Sélectionnez ces colonnes puis cliquez sur Finish pour fermer l'assistant.

    Un fichier pour la nouvelle analyse créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées de l'analyse.

  3. Dans la vue Data preview, cliquez sur Refresh Data.

    Les données dans la colonne sélectionnée sont affichées dans la table.

    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Columns, respectivement.

  4. Dans le champ Limit, configurez le nombre d'enregistrements de données à afficher dans la table et à utiliser comme données d'exemple, 50 enregistrements par exemple.

  5. Sélectionnez n first rows afin de lister les 50 premiers enregistrements de la colonne sélectionnée.

  6. Dans la vue Analyzed Columns, utilisez les flèches dans le coin supérieur droit pour ouvrir différentes pages dans la vue, si vous souhaitez analyser un grand nombre de colonnes.

    Vous pouvez également déposer les colonnes à analyser directement de la vue DQ Repository dans l'éditeur d'analyse.

  7. Utilisez les boutons de suppression, de déplacement vers le haut ou vers le bas pour gérer les colonnes analysées.

  8. Si nécessaire, cliquez-droit sur l'une des colonnes listées et sélectionnez Show in DQ Repository view afin de localiser la colonne sélectionnée sous la connexion à un fichier délimité correspondante dans l'arborescence.

Lorsque vous analysez des colonnes de type Date et que vous exécutez l'analyse avec un moteur Java, les informations de date sont stockées dans le studio et dans le datamart au format de date YYYY-MM-DD HH:mm:ss et d'heure HH:mm:ss.SSS. Les formats de date et heure sont légèrement différents lorsque vous exécutez l'analyse avec un moteur SQL.