Nettoyer les coordonnées clients - 6.2

Talend Big Data Platform Guide de prise en main

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Administration et monitoring
Création et développement
Déploiement
Installation et mise à niveau
Qualité et préparation de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend CommandLine
Talend DQ Portal
Talend Installer
Talend Runtime

Une fois les données clients profilées et les problèmes identifiés, des actions doivent être effectuées sur ces données, afin de les nettoyer. Commencez par générer des Jobs Talend prêts à l'emploi. Ces Jobs suppriment les doublons des colonnes analysées et les valeurs ne correspondant pas aux modèles utilisés dans les analyses.

Cela vous permet d'identifier les problèmes rencontrés dans les données d'adresses et de les résoudre.

Supprimer les valeurs en doublon

Les résultats de profiling de l'analyse de colonnes montrent qu'il existe des enregistrements en doublon dans les colonnes email et phone. Pour plus d'informations, consultez Afficher les résultats d'analyse.

À partir des résultats d'analyse, vous pouvez générer des Jobs prêts à l'emploi séparant les enregistrements uniques des enregistrements en doublon dans les colonnes sélectionnées. Ces Jobs produisent en sortie tous les doublons dans un fichier de rejet délimité par défaut et écrivent les valeurs uniques dans la base de données utilisée dans l'analyse.

Prérequis :

Vous pouvez suivre la même procédure pour la suppression des doublons dans les colonnes email ou phone.

  1. Ouvrez l'analyse de colonnes dans la perspective Profiling et cliquez sur Analysis Results au bas de l'éditeur.

  2. Dans les résultats Simple Statistics de la colonne email ou phone, cliquez-droit sur Duplicate Count et sélectionnez Identify duplicates.

    Cet exemple utilise les résultats des statistiques simples utilisées dans la colonne email.

    La perspective Integration s'ouvre sur le Job généré. Ce dernier est listé dans l'arborescence Repository.

    Les composants tMysqlInput, tUniqueRow et tMysqlOutputBulkExec sont automatiquement configurés selon votre connexion et les colonnes analysées. Le tMysqlOutputBulkExec écrit les enregistrements uniques dans une nouvelle table dans MySQL et le tFileOutputDelimited écrit les enregistrements en doublon dans un fichier de sortie délimité.

    Pour plus d'informations sur ces composants, consultez le Guide de référence des Composants Talend.

  3. Appuyez sur F6 pour exécuter le Job.

    Les valeurs en doublon sont écrites dans le fichier de sortie et les enregistrements uniques sont écrits dans une nouvelle table de la base de données gettingstarted dans MySQL.

Supprimer les valeurs ne correspondant pas

Les résultats des modèles utilisés dans les colonnes email et phone montrent que certains enregistrements ne respectent pas les formats standard d'e-mail et de numéro de téléphone. Pour plus d'informations, consultez Afficher les résultats d'analyse.

À partir des résultats d'analyse, vous pouvez générer des Jobs prêts à l'emploi pour récupérer les lignes ne correspondant pas, dans les colonnes.

Prérequis :

Vous pouvez suivre la même procédure pour la suppression des valeurs ne correspondant pas dans les colonnes email ou phone.

  1. Ouvrez l'analyse de colonnes dans la perspective Profiling et cliquez sur Analysis Results au bas de l'éditeur.

  2. Dans les tables Pattern Matching de la colonne email ou phone, cliquez-droit sur les résultats et sélectionnez Generate Job.

    Cet exemple utilise les résultats du modèle US Phone numbers utilisé dans la colonne phone.

  3. Dans l'assistant qui s'affiche, cliquez sur Finish pour confirmer la création du Job.

    La perspective Integration s'ouvre sur le Job généré. Ce dernier est listé dans l'arborescence Repository.

    Ce Job utilise le processus ETL (extraction, transformation et chargement) pour écrire les lignes des numéros de téléphone correspondant et ne correspondant pas au modèle, dans deux fichiers de sortie séparés.

    Le tMysqlInput est automatiquement configuré selon votre connexion et le tPatternCheck selon la colonne analysée.

    Pour plus d'informations sur ces composants, consultez le Guide de référence des Composants Talend.

  4. Double-cliquez sur chaque composant de sortie et modifiez le nom ou le chemin d'accès par défaut des fichiers de sortie, si nécessaire.

  5. Appuyez sur F6 pour exécuter le Job.

    Les numéros de téléphone correspondant et ne correspondant pas sont écrits dans deux fichiers de sortie séparés.

  6. Cliquez-droit sur chaque composant tFileOutputDelimited et sélectionnez Data Viewer pour ouvrir une vue sur les données qui correspondent et sur celles qui ne correspondent pas au modèle de numéros de téléphone.

    Vous pouvez ensuite créer un Job, par exemple pour standardiser les numéros de téléphone correspondants au modèle et les mettre au format international requis à l'aide du composant tStandardizePhoneNumber.