Définir les colonnes à analyser et configurer les indicateurs

Talend Open Studio for Data Quality Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Data Quality
task
Qualité et préparation de données
EnrichPlatform
Studio Talend

Définir les colonnes à analyser

La première étape lors de l'analyse du contenu d'une ou plusieurs colonne(s) est de définir la (les) colonne(s) à analyser. Les résultats d'analyse fournissent des statistiques concernant les valeurs dans chaque colonne.

Prérequis : La perspective Profiling du studio doit être sélectionnée. Au moins une connexion à une base de données doit être définie. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Pour analyse une ou plusieurs colonne(s), procédez comme suit  :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le dossier Data Profiling.

  2. Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir basic column analysis, sélectionnez Basic Column Analysis et cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse simple de colonne.

  4. Dans le champ Name, saisissez un nom pour l'analyse de colonne(s).

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Au besoin, définissez les métadonnées de l'analyse de colonne(s), Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants et cliquez sur Next pour passer à l'étape suivante.

Sélectionner les colonnes de base de données et configurer les données d'exemple

  1. Développez le nœud DB connections et, dans la base de données souhaitée, parcourez les colonnes que vous voulez analyser.

    Note

    Pour la base de données DB2, si des guillemets doubles existent dans le nom des colonnes d'une table, les guillemets doubles ne peuvent être récupérés avec les colonnes. Il est donc recommandé de ne pas utiliser de guillemet double dans le nom des colonnes dans les tables de la base de données DB2.

  2. Sélectionnez les colonnes et cliquez sur Finish pour fermer l'assistant.

    Sous le nœud Analysis de la vue DQ Repository, un fichier pour l'analyse de colonne nouvellement créée s'affiche et l'éditeur d'analyse s'ouvre avec les métadonnées de l'analyse.

    Cet exemple analyse des noms complets, des adresses e-mail et des nombres relatifs à des ventes.

  3. Dans la vue Data preview, cliquez sur Refresh Data.

    Les données des colonnes sélectionnées s'affichent dans la table.

  4. Dans la vue Data preview, sélectionnez :

    Option

    Pour...

    New Connection

    ouvrir un assistant et créer une connexion à la source de données depuis l'éditeur.

    Pour plus d'informations concernant la création d'une connexion aux sources de données, consultez Se connecter à une base de données et Se connecter à un fichier.

    Le champ Connection en haut de cette zone liste toutes les connexions créées dans le Studio.

    Select Columns

    ouvrir la boîte de dialogue Column Selection dans laquelle vous pouvez sélectionner les colonnes à analyser ou modifier la sélection des colonnes listées dans la table.

    Dans la boîte de dialogue ouverte, vous pouvez filtrer la liste des tables ou des colonnes à l'aide des champs Table filter et Column filter, respectivement.

    Select Indicators

    ouvrir la boîte de dialogue [Indicator Selection] dans laquelle vous pouvez sélectionner les indicateurs à utiliser pour profiler les colonnes.

    Pour plus d'informations, consultez Définition des indicateurs sur les colonnes.

    n first rows

    ou

    n random rows

    lister dans la table les N premiers enregistrements de données des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.

    Refresh Data

    afficher les données dans les colonnes sélectionnées selon les critères définis.

  5. Dans le champ Limit, configurez le nombre d'enregistrements de données que vous souhaitez afficher dans la table et utiliser en tant que données d'exemple.

  6. Dans la vue Analyzed Columns, utilisez les flèches dans le coin supérieur droit pour ouvrir différentes pages dans la vue si vous souhaitez analyser un grand nombre de colonnes.

    Vous pouvez déposer les colonnes à analyser directement de la vue DQ Repository à la liste Analyzed Columns dans cette vue.

    Si l'une des colonnes que vous souhaitez analyser est une clé primaire ou étrangère, son type de data mining devient automatiquement Nominal lorsque vous la listez dans la vue Analyzed Columns. Pour plus d'informations concernant les types de data mining, consultez Types de data mining.

  7. Cliquez sur OK et sauvegardez l'analyse de colonne.

    Si nécessaire, cliquez-droit sur l'une de colonnes listées dans la vue Analyzed Columns et sélectionnez Show in DQ Repository view, afin de l'afficher dans la connexion à la base de données, dans la vue DQ Repository.

Lorsque vous analysez des colonnes de type Date et que vous exécutez l'analyse avec un moteur Java, les informations de date sont stockées dans le studio au format de date YYYY-MM-DD HH:mm:ss et d'heure HH:mm:ss.SSS. Les formats de date et heure sont légèrement différents lorsque vous exécutez l'analyse avec un moteur SQL.

Définition des indicateurs sur les colonnes

La deuxième étape après la définition des colonnes à analyser est la définition des indicateurs système ou personnalisés pour chaque colonne définie.

Définir des indicateurs système ou personnalisés

Prérequis : Une analyse de colonnes doit être ouverte dans l'éditeur de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser.

Pour définir des indicateurs système pour les colonnes à analyser, procédez comme suit :

  1. Dans la vue Data Preview de l'éditeur d'analyse, cliquez sur Select indicators pour ouvrir la boîte de dialogue [Indicator Selection].

  2. Dans la boîte de dialogue [Indicator Selection] :

    • Dans la zone Data preview, placez votre curseur sur une ligne pour afficher les données complètes. Cette zone liste les données d'exemple définies dans l'éditeur d'analyse.

    • Cliquez dans les cellules correspondant aux indicateurs, pour en configurer les paramètres pour les colonnes analysées, selon vos besoins. Vous pouvez assigner des indicateurs système ou personnalisés aux colonnes.

    • Cochez la case Hide non applicable indicators pour masquer les indicateurs système et personnalisés non compatibles avec le moteur sélectionné pour exécuter l'analyse.

    • Si nécessaire, modifiez l'ordre des colonnes en les déplaçant avec votre souris.

      L'ordre des colonnes sera modifié de la même manière dans l'éditeur d'analyse.

    Note

    - Il n'est pas très utile d'utiliser les statistiques de fréquence des modèles sur une colonne de type Date dans des bases de données, lors de l'exécution de l'analyse avec le moteur SQL. Aucune erreur de qualité de données n'est retournée par l'indicateur, car toutes les dates sont affichées selon un format. Pour plus d'informations, consultez l'article Why do we get 99-AAA-99 when profiling Date columns in Oracle (en anglais).

    - Si vous attachez Date Pattern Frequency à une colonne de date dans votre analyse, vous pouvez générer une expression régulière de date à partir des résultats de l'analyse. Pour plus d'informations, consultez Générer une expression régulière à partir de la Table de Fréquence des modèles de date.

  3. Cliquez sur OK.

    Les indicateurs sont attachés aux colonnes analysées dans la vue Analyzed Columns.

    L'analyse de cet exemple fournit/calcule :

    • les statistiques simples de toutes les colonnes. Pour plus d'informations concernant des indicateurs, consultez Statistiques simples,

    • les caractéristiques des champs textuels et le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans la colonne fullname. Pour plus d'informations, consultez Statistiques de texte et Statistiques avancées respectivement,

    • les modèles dans la colonne email pour afficher les modèles fréquents et rares, afin que vous puissiez identifier plus facilement les problèmes de qualité de données. Pour plus d'informations concernant ces indicateurs, consultez Statistiques de fréquence des modèles,

    • l'écart, l'écart interquartile, ainsi que les valeurs moyenne et médiane des données numériques dans la colonne total_sales. Pour plus d'informations concernant ces indicateurs, consultez Résumé statistique.

    • la fréquence des chiffres 1 à 9 dans les nombres relatives aux ventes, afin de détecter la fraude. Pour plus d'informations, consultez Détection de la fraude.

Définir les options pour les indicateurs système ou personnalisés

Vous pouvez définir des seuils attendus sur la valeur de l'indicateur. Le seuil que vous définissez est utilisé pour mesurer la qualité des données. Si la valeur de l'indicateur est en dehors du seuil défini, les données sont de mauvaise qualité. Vous pouvez définir un seuil ou aucun seuil. Vous pouvez configurer ces seuils en valeur ou en pourcentage, en respectant le nombre de lignes.

Prérequis : Une analyse de colonne(s) doit être ouverte dans l'éditeur de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser.

Pour plus d'informations concernant la définition des indicateurs, consultez Définir des indicateurs système ou personnalisés.

Pour configurer les indicateurs système ou personnalisés, procédez comme suit :

  1. Dans la vue Analyzed Columns de l'éditeur d'analyse, cliquez sur l'icône d'options à côté de l'indicateur.

  2. Dans la boîte de dialogue ouverte, configurez les paramètres pour l'indicateur donné.

    Par exemple, si vous souhaitez préciser qu'il y a des valeurs nulles dans la colonne que vous souhaitez analyser, vous pouvez saisir la valeur 0 dans le champ Upper threshold pour l'indicateur Null Count.

    Les boîtes de dialogue des paramètres des différents indicateurs diffèrent selon les paramètres spécifiques à chaque indicateur. Pour plus d'informations concernant les paramètres des différents indicateurs, consultez Paramètres des indicateurs.

  3. Cliquez sur Finish afin de fermer la boîte de dialogue.

  4. Sauvegardez l'analyse.

Définir les indicateurs personnalisés dans l'éditeur d'analyses

Prérequis :

Pour définir des indicateurs personnalisés dans l'éditeur d'analyses pour les colonnes à analyser, procédez comme suit :

  1. Soit :

    1. Dans l'éditeur d'analyses et dans la vue Analyzed Columns, cliquez sur l'icône à côté du nom de la colonne que vous souhaitez définir comme indicateur.

      La boîte de dialogue [UDI Selector] s'ouvre.

    2. Sélectionnez les indicateurs personnalisés puis cliquez sur OK.

    Soit :

    1. Dans la vue DQ Repository, développez les nœuds Libraries et Indicators à la suite.

    2. Dans le dossier User Defined Indicator, glissez l'indicateur personnalisé avec lequel vous souhaitez analyser le contenu de la colonne sur le nom de la colonne dans la vue Analyzed Columns.

      L'indicateur personnalisé s'affiche sous le nom de la colonne.

    3. Si nécessaire, configurez un seuil pour l'indicateur personnalisé.

      Pour plus d'informations, consultez Définir les options pour les indicateurs système ou personnalisés.

  2. Sauvegardez l'analyse.