Définir les colonnes à analyser - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La première étape lors de l'analyse du contenu d'une ou plusieurs colonne(s) est de définir la (les) colonne(s) à analyser. Les résultats d'analyse fournissent des statistiques concernant les valeurs dans chaque colonne.

Prérequis : Au moins une connexion à un fichier délimité doit être configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à un fichier.

Pour analyser une ou plusieurs colonne(s) dans un fichier délimité, procédez comme suit :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le dossier Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir basic column analysis et cliquez sur Next. Si votre studio est en français, saisissez analyse simple de colonne.

  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Renseignez les métadonnées de l'analyse, son objectif, dans le champ Purpose, sa Description et son auteur dans le champ Author) puis cliquez sur Next pour passer à l'étape suivante.

Sélectionner les colonnes du fichier et configurer les données d'exemple

  1. Développez le nœud FileDelimited connections puis parcourez l'arborescence jusqu'à la (les) colonne(s) que vous souhaitez analyser.

    Dans cet exemple, vous souhaitez analyser les colonnes id, first_name et age dans la connexion sélectionnée.

  2. Sélectionnez les colonnes et cliquez sur Finish pour fermer l'assistant.

    Un fichier pour la nouvelle analyse créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées de l'analyse.

  3. Dans la vue Data preview, cliquez sur Refresh Data.

    Les données des colonnes sélectionnées s'affichent dans la table.

    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Columns, respectivement.

  4. Dans le champ Limit, configurez le nombre d'enregistrements de données que vous souhaitez afficher dans la table et utiliser en tant que données d'exemple.

    50 enregistrements par exemple.

  5. Sélectionnez n first rows afin de lister les 50 premiers enregistrements de la colonne sélectionnée.

  6. Dans la vue Analyzed Columns, utilisez les flèches dans le coin supérieur droit pour ouvrir différentes pages dans la vue si vous souhaitez analyser un grand nombre de colonnes.

    Vous pouvez déposer les colonnes à analyser directement de la vue DQ Repository à la liste Analyzed Columns dans cette vue.

  7. Utilisez les boutons de suppression, de déplacement vers le haut ou vers le bas pour gérer les colonnes analysées.

  8. Si nécessaire, cliquez-droit sur l'une de colonnes listées dans la vue Analyzed Columns et sélectionnez Show in DQ Repository view, afin de l'afficher dans la connexion à la base de données, dans la vue DQ Repository.

Lorsque vous analysez des colonnes de type Date et que vous exécutez l'analyse avec un moteur Java, les informations de date sont stockées dans le studio et dans le datamart au format de date YYYY-MM-DD HH:mm:ss et d'heure HH:mm:ss.SSS. Les formats de date et heure sont légèrement différents lorsque vous exécutez l'analyse avec un moteur SQL.