Accéder au contenu principal Passer au contenu complémentaire

Corriger les problèmes avec Talend Cloud Data Preparation

Vous êtes à présent analyste de données dans un service financier et votre tâche est de comprendre d'où vient la mauvaise qualité du jeu de données customers_billing_dataset auquel on vous a donné accès. Vous allez consulter les données et créer une préparation.

Procédure

  1. Dans la liste Dataset (Jeu de données), cliquez sur customers_billing_dataset pour ouvrir la vue détaillée du jeu de données.
    Vous pouvez déjà constater que le jeu de données a un problème, grâce au diagramme du Talend Trust Score™, indiquant une tendance à la baisse dans les derniers jours. Cela signifie que les dernières données ajoutées à la base de données contiennent des erreurs. Cela est confirmé par la tuile Data quality (Qualité de données) affichant un pourcentage de valeurs invalides et vides.
    Vue détaillée du jeu de données customers_billing_dataset avec des diagrammes et des indicateurs de qualité.
  2. Pour consulter les données, cliquez sur l'icône Sample (Échantillon) dans le menu de gauche.
    Les données s'affichent sous forme de tableau. Vous pouvez rapidement voir des différences entre les valeurs valides et les valeurs invalides dans certaines colonnes. De manière plus visible, vous constatez que la colonne Billing_Country contient des adresses complètes divisées en plusieurs colonnes.
    Vue de l'échantillon du jeu de données, indiquant les erreurs à corriger dans les données.
  3. Pour commencer une préparation sur ce jeu de données et corriger ces erreurs, cliquez sur le bouton Preparations (Préparations) > Add (Ajouter) en haut à droite de l'écran.
    Curseur pointant sur le bouton Add preparation (Ajouter une préparation).

    Talend Cloud Data Preparation s'ouvre et vous pouvez commencer à appliquer des opérations de transformation à l'échantillon de données.

  4. Appliquez les fonctions suivantes pour corriger les informations de facturation :
    1. Split the text in parts (Scinder le texte en parties) sur la colonne Billing_Country, pour la scinder en 4 Parts (Parties) et avec , comme Separator (Séparateur).
    2. Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) sur les colonnes Billing_Country_Split_2, Billing_Country_Split_3 et Billing_Country_Split_4, pour supprimer les espaces blancs (whitespaces).
    3. Delete the rows that match (Supprimer les lignes qui correspondent à) sur la colonne Billing_Country_Split_1 et utilisez l'expression régulière (FR)|(US)|(GB) comme valeur (Value).
    Les données provenant des adresses complètes ont été divisées en de nouvelles colonnes et nettoyées pour vous assurer que leur format est correct. Il ne vous reste plus que les lignes qui contenaient initialement les erreurs, qui contiennent à présent les informations de facturation proprement divisées dans des colonnes dédiées pour le pays, l'État, la ville et la rue.

Résultats

La préparation affiche à présent les données propres pouvant être utilisées pour mettre à jour le jeu de données source.
Vue de l'échantillon du jeu de données, avec une meilleure qualité de données et un formatage amélioré.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !