Identifier des anomalies de données - 6.1

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La première étape dans cet exemple est le profiling de vos ressources, ici les informations de contact des clients, dans une base de données MySQL. Les résultats du profiling vous fournissent des statistiques concernant les valeurs dans chaque colonne.

Profiler les colonnes d'adresses

Utilisez la perspective Profiling de votre studio pour analyser les colonnes de clients, notamment email et postal. A l'aide d'indicateurs et de modèles natifs sur ces colonnes, les résultats d'analyse affichent les données d'adresses qui correspondent et ne correspondent pas, le nombre d'enregistrements les plus fréquents pour chaque modèle distinct, ainsi que le nombre de lignes, de doublons et de blancs dans chaque colonne.

Définir l'analyse de colonnes

  1. Dans la vue DQ Repository, cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  2. Commencez à saisir Basic column analysis dans le champ de recherche, sélectionnez Basic Column Analysis dans la liste et cliquez sur Next. Si votre studio est en français, saisissez analyse simple de colonne.

  3. Dans le champ Name, saisissez un nom pour l'analyse de colonnes.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  4. Configurez les métadonnées de l'analyse de colonnes (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

Sélectionner les colonnes d'adresse et configurer les données d'exemple

  1. Développez le nœud DB connections et parcourez-le jusqu'aux colonnes d'adresses que vous souhaitez analyser.

  2. Sélectionnez les colonnes et cliquez sur Finish pour fermer l'assistant.

    Un fichier pour la nouvelle analyse de colonnes s'affiche sous le nœud Analysis de la vue DQ Repository et l'éditeur d'analyse s'ouvre sur les métadonnées de cette analyse.

  3. Dans la vue Data preview, cliquez sur Refresh Data.

    Les données des colonnes sélectionnées sont affichées dans la table.

    Vous pouvez modifier votre source de données et les colonnes sélectionnées à l'aide des boutons New Connection et Select Data, respectivement.

  4. Dans le champ Limit, saisissez 50 pour le nombre d'enregistrement que vous souhaitez afficher dans la table et utiliser comme données d'exemple.

  5. Sélectionnez n random rows afin de lister 50 enregistrements aléatoires des colonnes sélectionnées.

Pour plus d'informations concernant les analyses de colonnes, consultez le chapitre relatif aux analyses de colonnes dans le Guide utilisateur du Studio Talend.

Configurer les indicateurs système

  1. Dans la vue Data preview de l'éditeur d'analyse, cliquez sur Select indicators pour ouvrir la boîte de dialogue [Indicator Selection].

  2. Cliquez dans les cellules à côté des noms d'indicateurs afin de les paramétrer pour les colonnes analysées et cliquez sur OK.

    Dans cet exemple, vous souhaitez consulter le nombre de lignes, de blancs et de doublons dans toutes les colonnes, afin de voir si les données sont cohérentes. L'indicateur Pattern Frequency Table est utilisé sur les colonnes email et postal afin de calculer le nombre des enregistrements les plus fréquents pour chaque modèle ou valeur distinct(e).

    Les indicateurs sont ajoutés aux colonnes dans la vue Analyzed Columns.

  3. Cliquez sur l'icône d'option à côté de l'indicateur Blank Count et saisissez 0 dans le champ Upper threshold.

    Définir des seuils sur les indicateurs est très utile. Cela permet de marquer en rouge le nombre de valeurs nulles dans les résultats d'analyse.

Pour plus d'informations concernant les types d'indicateurs et leur utilisation lors d'analyses de données, consultez le Guide utilisateur du Studio Talend.

Configurer les modèles

Vous allez mettre en correspondance le contenu de la colonne email par rapport au format d'e-mail standard et le contenu de la colonne postal par rapport au format standard des code postaux des Etats-Unis. Cela permet de définir le contenu, la structure et la qualité des adresses e-mail et des codes postaux, ainsi que donner un pourcentage des données correspondant aux formats standards et des données ne correspondant pas.

  1. Dans la vue Analyzed Columns, cliquez sur l'icône à côté de la colonne email.

  2. Dans la boîte de dialogue [Pattern Selector], développez Regex et parcourez l'arborescence jusqu'au nœud Email Address, dans le dossier internet, puis cliquez sur OK.

  3. Cliquez sur l'icône d'option à côté de l'indicateur Email Address et saisissez 98.0 dans le champ Lower threshold (%).

    Si le nombre d'enregistrements correspondant au modèle est inférieur à 98 %, ils seront marqués en rouge dans les résultats de l'analyse.

  4. Répétez l'opération pour ajouter la colonne postal au modèle US Zipcode Validation depuis le dossier address.

Pour plus d'informations concernant les types de modèles et leur utilisation lors d'analyses de données, consultez le Guide utilisateur du Studio Talend.

Exécuter l'analyse et afficher les résultats du profiling

  1. Sauvegardez l'analyse de colonnes dans l'éditeur d'analyse puis appuyez sur F6 pour l'exécuter.

    Un groupe de diagrammes s'affiche dans le panneau Graphics, à droite de l'éditeur d'analyse, et montre les résultats de l'analyse de colonnes, notamment ceux de la mise en correspondance des modèles.

  2. Cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse pour accéder à une vue plus détaillée des résultats.

    Ces résultats affichent les graphiques générés pour les colonnes analysées, ainsi que les tables détaillant les résultats des statistiques et des mises en correspondance des modèles.

    Les résultats pour la colonne email se présentent comme suit :

    Les résultats de la mise en correspondance des modèles montrent qu'environ 10 % des adresses e-mail enregistrées ne correspondent pas au modèle standard. Les résultats des statistiques simples montrent qu'environ 8 % des adresses e-mail enregistrées sont vides et qu'environ 5% sont des doublons. Les résultats de fréquence des modèles donnent le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Cela permet de voir si les données sont cohérentes ou si vous devez corriger et nettoyer les données d'e-mails avant de commencer votre campagne.

    Les résultats de la colonne postal se présentent comme suit :

    Les ensembles de résultats pour la colonne postal donnent le nombre d'enregistrements qui correspondent et le nombre d'enregistrements qui ne correspondent pas au format standard des codes postaux des Etats-Unis. Les ensembles de résultats donnent également le nombre de blancs et de doublons, ainsi que le nombre d'enregistrements les plus fréquents pour chaque modèle distinct. Ces résultats montrent que les données ne sont pas vraiment cohérentes.

    Un certain pourcentage des clients ne peut être contacté ni par e-mail ni par courrier. Ces résultats montrent clairement que vos données ne sont pas vraiment cohérentes et qu'il faut qu'elles soient corrigées.

Visualiser les données analysées

Après exécution de l'analyse de colonnes à l'aide du moteur SQL, dans la vue Analysis Results de l'éditeur d'analyse, vous pouvez cliquer-droit sur l'une des barres ou lignes des graphiques et ainsi accéder à une vue des données analysées. Cela peut être très utile pour voir les lignes invalides, par exemple, et trouver la manière d'ajuster les données.

Pour visualiser et exporter les données analysées, procédez comme suit :

  1. Au bas de l'éditeur d'analyse, cliquez sur l'onglet Analysis Results pour ouvrir une vue détaillée des résultats d'analyse.

  2. Cliquez-droit sur une ligne de données, dans les résultats des statistiques de la colonne Email et sélectionnez View rows, par exemple.

La perspective Data Explorer s'ouvre et liste les lignes invalides dans la colonne email.