Identifier les anomalies dans les données - 6.2

Talend Big Data Platform Guide de prise en main

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Administration et monitoring
Création et développement
Déploiement
Installation et mise à niveau
Qualité et préparation de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend CommandLine
Talend DQ Portal
Talend Installer
Talend Runtime

Cette analyse profile les adresses e-mail et les numéros de téléphone des clients basés aux États-Unis. Elle montre comment identifier des anomalies dans les colonnes adress, comment utiliser des Jobs Talend pour récupérer des données ne correspondant pas et enfin comment générer des rapports d'évolution périodiques afin de monitorer l'évolution des données et partager les statistiques avec les utilisateurs métier.

Ce cas d'utilisation explique comment utiliser la perspective Profiling du studio pour analyser les adresses e-mail et les numéros de téléphone des clients. Il utilise des indicateurs et des modèles prêts à l'emploi sur les colonnes et montre les données d'adresse correspondantes et ne correspondant pas. Les Jobs Talend sont ensuite générés dans les résultats d'analyse afin de nettoyer les données clients et monitorer leur évolution.

Vous pouvez utiliser la perspective Data Explorer pour parcourir les données ne correspondant pas.

La séquence de profiling et de nettoyage des données clients comprend les étapes suivantes :

  1. Création d'une analyse de colonnes sur les adresses e-mail et les numéros de téléphone des clients. Pour plus d'informations, consultez Définir une analyse de colonnes.

  2. Connexion à la base de données comprenant les données clients dans l'éditeur d'analyse. Pour plus d'informations, consultez Créer une connexion à la base de données.

  3. Ajout d'indicateurs fournissant des statistiques simples sur les données comme le nombre de lignes, de valeurs blanches et de valeurs en doublon. Pour plus d'informations, consultez Configurer des indicateurs système.

  4. Ajout de modèles standard par rapport auxquels les adresses e-mail et les numéros de téléphone correspondent. Pour plus d'informations, consultez Configurer des modèles.

  5. Exécution de l'analyse afin que les résultats s'affichent dans les tables et les graphiques. Pour plus d'informations, consultez Afficher les résultats d'analyse.

  6. Accès à une vue des données analysées pour consulter les enregistrements invalides. Pour plus d'informations, consultez Explorer les données ne correspondant pas.

  7. Génération de Jobs prêts à l'emploi à partir des résultats d'analyse pour supprimer les valeurs en doublon des colonnes email et phone. Pour plus d'informations, consultez Supprimer les valeurs en doublon.

  8. Génération de Jobs prêts à l'emploi à partir des résultats d'analyse pour supprimer les valeurs qui ne respectent pas le format d'e-mail ou de numéro de téléphone standard, respectivement des colonnes email et phone. Pour plus d'informations, consultez Supprimer les valeurs ne correspondant pas.

Définir une analyse de colonnes

Vous voulez créer une analyse de colonnes dans la perspective Profiling du studio pour examiner les colonnes Email et Phone dans une base de données MySQL et collecter des statistiques sur celles-ci. L'analyse fonctionne sur plusieurs colonnes mais chaque colonne est analysée de manière séparée et indépendante.

Prérequis :

  • Vous avez ouvert la perspective Profiling dans le studio.

  1. Dans l'arborescence DQ Repository, cliquez-droit sur Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  2. Commencez à saisir Basic column analysis dans le champ de recherche, sélectionnez Basic Column Analysis dans la liste et cliquez sur Next.

  3. Dans le champ Name, nommez l'analyse.

    Le champ Name est obligatoire. N'utilisez aucun espace ou caractère spécial dans le nom de l'analyse.

  4. Définissez un objectif et une description pour l'analyse et cliquez sur Finish pour ouvrir l'éditeur d'analyse.

    Les champs Purpose et Description sont facultatifs, mais il est conseillé de renseigner ces informations s'affichant dans Detail View lorsque vous sélectionnez l'analyse.

    La nouvelle analyse est listée dans le dossier Analysis dans l'arborescence DQ Repository.

Créer une connexion à la base de données

Avant d'effectuer l'analyse des données clients, enregistrées dans la base de données MySQL dans cet exemple, vous devez d'abord créer la connexion à la base de données.

Prérequis :

  • Vous avez ouvert la perspective Profiling dans le studio.

  • Vous avez créé une analyse de colonnes et ouvert l'éditeur d'analyse. Pour plus d'informations, consultez Définir une analyse de colonnes.

  • Vous avez importé le fichier .sql gettingstarted contenant les données clients dans une base de données MySQL à laquelle vous avez accès. Pour plus d'informations, consultez Configurer les données d'entrée.

  1. Dans l'éditeur d'analyse, cliquez sur l'onglet New Connection pour ouvrir l'assistant [Create New Connection].

  2. Dans la liste Connection Type, sélectionnez DB connections et cliquez sur Next.

  3. Nommez la connexion à la base de données, gettingstarted dans cet exemple.

    Le champ Name est obligatoire. N'utilisez aucun espace ou caractère spécial dans le nom de la connexion.

  4. Définissez un objectif et une description pour la connexion et cliquez sur Next.

    Les champs Purpose et Description sont facultatifs, mais il est conseillé de renseigner ces informations s'affichant dans Detail View lorsque vous sélectionnez la connexion.

  5. Dans les listes DB Type et DB Version, sélectionnez respectivement MySQL pour cet exemple et la version de la base de données.

  6. Saisissez les informations d'authentification et les détails de la base de données dans les champs correspondants et cliquez sur le bouton Check pour confirmer que la connexion est établie.

    Si vous n'avez pas déjà installé le pilote de base de données (fichier .jar) nécessaire à l'utilisation de la base de données, un assistant vous interrompra pour installer le module tiers. Cliquez sur Download and Install et fermez l'assistant.

  7. Cliquez sur Finish pour créer la connexion à la base de données. Elle s'affiche sous le nœud Metadata et une nouvelle étape de l'assistant s'ouvre.

  8. Développez la connexion à la base de données, cliquez sur le nom de la table et cochez les cases des colonnes sur lesquelles vous désirez créer l'analyse.

  9. Cliquez sur OK pour fermer l'assistant et lister les colonnes dans l'éditeur d'analyse.

    Vous pouvez cliquer sur Refresh Data pour ouvrir les données actuelles dans l'éditeur d'analyse.

Configurer des indicateurs système

Cette analyse de colonnes utilise des indicateurs prêts à l'emploi pour fournir des statistiques simples comme le nombre de lignes, de valeurs blanches et de valeurs en doublon dans les colonnes Email et Phone.

Prérequis :

  1. Dans la zone Data Preview dans l'éditeur d'analyse, cliquez sur Select indicators pour ouvrir la boîte de dialogue [Indicator Selection].

  2. Développez Simple Statistics et sélectionnez les indicateurs Row Count, Blank Count et Duplicate Count. Cliquez sur OK pour fermer l'assistant.

    Vous voulez consulter le nombre de lignes, de valeurs blanches et de valeurs en doublon dans les colonnes Email et Phone pour contrôler la cohérence des données.

    Des indicateurs sont ainsi ajoutés dans les colonnes qui se trouvent dans la zone Analyzed Columns.

  3. Cliquez sur l'icône à côté des indicateur Duplicate Count et Blank Count et dans le champ Upper threshold, saisissez la valeur 0.

    Définir des limites dans les colonnes Email et Phone est très utile car le nombre des valeurs blanches et des valeurs en doublon est indiqué en rouge dans les résultats d'analyse.

    Pour plus d'informations concernant les types d'indicateur et leur utilisation lorsque les données sont analysées, consultez le Guide utilisateur du Studio Talend.

Configurer des modèles

Cette analyse de colonnes utilise des modèles prédéfinis pour que le contenu des colonnes Email et Phone corresponde aux modèles standard d'e-mails et de numéros de téléphone basés aux États-Unis, respectivement. Cette analyse définit le contenu, la structure et la qualité des adresses e-mail et des numéros de téléphone et donne un pourcentage des données qui correspondent aux formats standard ainsi que des données qui ne correspondent pas.

Prérequis :

  1. Dans la zone Data Preview dans l'éditeur d'analyse, cliquez sur l'icône à côté de la colonne Email pour ouvrir la boîte de dialogue [Pattern Selector].

    Développez Regex > internet, cochez la case Email Address et cliquez sur OK pour fermer la boîte de dialogue.

    Le modèle est ajouté à la colonne dans la zone Analyzed Columns.

  2. Cliquez sur l'icône à côté de la colonne Phone pour ouvrir la boîte de dialogue [Pattern Selector].

    Développez Regex > phone, cochez la case US phone numbers et cliquez sur OK pour fermer la boîte de dialogue.

    Le modèle est ajouté à la colonne dans la zone Analyzed Columns.

  3. Cliquez sur l'icône à côté des modèles Email Address et US phone numbers et dans les champs Lower threshold (%), saisissez la valeur 98.0.

    Si le nombre d'enregistrements correspondants aux modèles est inférieur à 98 %, il est indiqué en rouge dans les résultats d'analyse.

    Pour plus d'informations concernant les types de modèle et leur utilisation lorsque vous analysez les données, consultez le Guide utilisateur du Studio Talend.

Afficher les résultats d'analyse

Une fois la création de l'analyse de colonnes et la définition des indicateurs et des modèles terminées, vous pouvez exécuter l'analyse et afficher ses résultats dans des tables et des graphiques.

Prérequis :

  1. Dans Analysis Parameters, sélectionnez java dans la liste Execution engine pour exécuter l'analyse à l'aide du moteur Java.

    Pour plus d'informations concernant les moteurs d'exécution d'analyse, consultez le Guide utilisateur du Studio Talend.

  2. Dans l'éditeur d'analyse, appuyez sur la touche F6 pour exécuter l'analyse ou cliquez sur le bouton Run.

    L'éditeur passe à la vue Analysis Results. Les résultats d'analyse des graphiques générés pour les colonnes analysées ainsi que des tables détaillant les résultats correspondants aux statistiques et aux modèles.

    Les résultats pour la colonne Email se présentent comme suit :

    Les résultats pour la colonne Phone se présentent comme suit :

    Les résultats concernant les colonnes Email et Phone donnent le nombre d'enregistrements correspondant et ne correspondant pas, respectivement, aux modèles d'e-mail standard et aux numéros de téléphone standard basés aux États-Unis. Les résultats donnent également le nombre de valeurs blanches et de valeurs en doublon. Ils montrent que les données ne sont pas vraiment cohérentes et qu'elles doivent être corrigées.