Analyser des colonnes dans un fichier délimité - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La séquence de profiling de données d'un fichier délimité comprend les étapes suivantes :

  1. définition des colonnes à analyser.

    Pour plus d'informations, consultez Définir les colonnes à analyser.

  2. configuration des indicateurs système pour les colonnes définies.

    Pour plus d'informations, consultez Définition des indicateurs sur les colonnes. Pour plus d'informations concernant les types d'indicateurs et leur gestion, consultez Indicateurs.

  3. configuration des modèles pour les colonnes définies. Pour plus d'informations, consultez Modèles.

    Vous pouvez également utiliser des indicateurs personnalisés lors de l'analyse de données dans un fichier délimité, si un indicateur Java personnalisé a déjà été créé. Pour plus d'informations, consultez Définir des indicateurs Java personnalisés.

    Les sections suivantes décrivent de manière détaillée chacune des étapes précédentes.

Définir les colonnes à analyser

La première étape lors de l'analyse du contenu de fichiers délimités est de définir les colonnes à analyser.

Prérequis : Au moins une connexion à un fichier délimité doit être configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à un fichier délimité.

Pour analyser une ou plusieurs colonne(s) dans un fichier délimité, procédez comme suit :

Définir l'analyse

  1. Dans l'arborescence DQ Repository, développez le dossier Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir Basic Column Analysis et cliquez sur Next. Si votre studio est en français, saisissez analyse simple de colonne.

  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Si nécessaire, renseignez les métadonnées de l'analyse, son objectif, dans le champ Purpose, sa Description et son auteur dans le champ Author) puis cliquez sur Next pour passer à l'étape suivante.

Sélectionner les colonnes du fichier et configurer les données d'exemple

  1. Développez le nœud FileDelimited connections puis parcourez l'arborescence jusqu'à la (les) colonne(s) que vous souhaitez analyser.

    Dans cet exemple, vous souhaitez analyser les colonnes id, first_name et age dans la connexion sélectionnée.

  2. Sélectionnez ces colonnes puis cliquez sur Finish pour fermer l'assistant.

    Un fichier pour la nouvelle analyse créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées de l'analyse.

  3. Dans la vue Data preview, cliquez sur Refresh Data.

    Les données dans la colonne sélectionnée sont affichées dans la table.

    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Data, respectivement.

  4. Dans le champ Limit, configurez le nombre d'enregistrements de données à afficher dans la table et à utiliser comme données d'exemple, 50 enregistrements par exemple.

  5. Sélectionnez n first rows afin de lister les 50 premiers enregistrements de la colonne sélectionnée.

  6. Dans la vue Analyzed Columns, utilisez les flèches dans le coin supérieur droit pour ouvrir différentes pages dans la vue, si vous souhaitez analyser un grand nombre de colonnes.

    Vous pouvez également déposer les colonnes à analyser directement de la vue DQ Repository dans l'éditeur d'analyse.

  7. Utilisez les boutons de suppression, de déplacement vers le haut ou vers le bas pour gérer les colonnes analysées.

  8. Si nécessaire, cliquez-droit sur l'une des colonnes listées et sélectionnez Show in DQ Repository view afin de localiser la colonne sélectionnée sous la connexion à un fichier délimité correspondante dans l'arborescence.

Lorsque vous analysez des colonnes de type Date et que vous exécutez l'analyse avec un moteur Java, les informations de date sont stockées dans le studio et dans le datamart au format de date YYYY-MM-DD HH:mm:ss et d'heure HH:mm:ss.SSS. Les formats de date et heure sont légèrement différents lorsque vous exécutez l'analyse avec un moteur SQL.

Configurer les indicateurs système et personnalisés

La seconde étape, après la définition des colonnes à analyser est de configurer les indicateurs statistiques pour chaque colonne définie.

Note

Vous pouvez également utiliser des indicateurs personnalisés lors de l'analyse de données dans un fichier délimité, si un indicateur Java personnalisé a déjà été créé. Pour plus d'informations, consultez Définir des indicateurs Java personnalisés.

Prérequis : Une analyse d'un fichier délimité doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser.

Afin de configurer des indicateurs système pour la (les) colonne(s) à analyser, procédez comme suit :

  1. Suivez la procédure décrite dans Définir les colonnes à analyser.

  2. Dans la vue Data preview, dans l'éditeur d'analyse, cliquez sur Select indicators afin d'ouvrir la boîte de dialogue [Indicator Selection].

  3. Configurez les indicateurs dans la boîte de dialogue [Indicator Selection], comme décrit dans Définir des indicateurs système ou personnalisés.

    Dans cet exemple, cochez Simple Statistics pour toutes les colonnes (All columns), Text Statistics pour la colonne first_name et Soundex Frequency Table également pour la colonne first_name.

    Note

    Vous pouvez définir les indicateurs de statistiques de texte sur une colonne uniquement si son type de data mining est nominal. Sinon, ces indicateurs sont grisés dans la boîte de dialogue.

    Les indicateurs sélectionnés sont attachés aux colonnes analysées dans la vue Analyzed Columns.

Configurer les options des indicateurs système

Prérequis : Une analyse de fichier délimité doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser, Définition des indicateurs sur les colonnes.

Pour configurer les options des indicateurs système utilisés sur les colonnes à analyser, procédez comme suit :

  1. Suivez les procédures décrites dans Définir les colonnes à analyser et Définition des indicateurs sur les colonnes.

  2. Dans l'éditeur d'analyse, cliquez sur Analyzed Columns pour ouvrir la vue des colonnes analysées.

  3. Dans la liste Analyzed Columns, cliquez sur l'icône à côté de l'indicateur afin d'ouvrir la boîte de dialogue dans laquelle vous pouvez configurer les options pour l'indicateur donné.

    Note

    Les boîtes de dialogue de paramètres des indicateurs diffèrent, car les paramètres varient d'un indicateur à l'autre. Pour plus d'informations concernant les différents paramètres d'indicateurs, consultez Paramètres des indicateurs.

  4. Configurez les paramètres de l'indicateur donné.

  5. Cliquez sur Finish pour fermer la boîte de dialogue.

  6. Cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur d'analyse.

Configurer des expressions régulières et finaliser l' analyse

Vous pouvez ajouter une ou plusieurs expression(s) régulière(s) à une ou plusieurs colonne(s) analysée(s).

Prérequis : Une analyse de fichier délimité doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser, Définition des indicateurs sur les colonnes et Configurer les options des indicateurs système.

Pour ajouter des expressions régulières aux colonnes analysées, procédez comme suit :

  1. Définissez d'abord l'expression régulière que vous souhaitez ajouter à la colonne analysée. Pour plus d'informations concernant la création d'expressions régulières, consultez Créer une nouvelle expression régulière ou un nouveau modèle SQL.

    Dans cet exemple, l'expression régulière cherchera tous les mots commençant par une majuscule.

  2. Ajoutez ensuite cette expression régulière à la colonne first_name dans l'éditeur d'analyse ouvert, comme décrit dans Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s).

  3. Cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur d'analyse et appuyez sur F6 pour exécuter l'analyse.

    Note

    Si le format du fichier que vous utilisez est problématique, un message d'erreur vous indique les lignes contenant des problèmes.

    Le panneau Graphics à droite de l'éditeur d'analyse affiche un groupe de graphique(s), chacun correspondant à l'une des colonnes analysées.

  4. Pour visualiser les différents graphiques associés aux colonnes analysées, vous devez naviguer à travers les différentes pages du panneau Graphics via la barre d'outils dans le coin supérieur droit.

    Afin de voir les résultats détaillés des colonnes analysées, consultez Accéder à la vue détaillée des résultats d'une analyse.

Accéder à la vue détaillée de l'analyse de fichier

Prérequis : Une analyse de fichier délimité doit avoir été configurée et exécutée dans la perspective Profiling du studio. Pour plus d'informations, consultez Analyser des colonnes dans un fichier délimité.

Pour accéder à une vue plus détaillée des résultats d'analyse, procédez comme suit :

  1. Cliquez sur l'onglet Analysis Results en bas de l'éditeur d'analyse pour ouvrir la vue correspondante.

  2. Cliquez sur Analysis Result puis sur le nom de la colonne analysée pour laquelle vous souhaitez afficher les résultats d'analyse.

    La vue des résultats détaillés de l'analyse affiche les graphiques générés pour les colonnes analysées, ainsi que les tables détaillant les résultats statistiques.

    Ci-dessous, vous pouvez voir les tables accompagnant les graphiques statistiques dans la vue Analysis Results, pour la colonne first_name analysée dans la procédure décrite dans Analyser des colonnes dans un fichier délimité.