Accéder au contenu principal Passer au contenu complémentaire

Filtrer des données client·es basées sur des types sémantiques valides et invalides

Un pipeline avec un jeu de données source, un processeur Field Selector, un processeur Semantic filter et deux destinations.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion de test.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez et extrayez le fichier semantic_filter-customers.zip. Il contient une liste de client·es avec leurs données brutes. Vous pouvez trouver ce fichier en pièce jointe à ce document.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Les fichiers sont stockés dans deux jeux de données de test.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Filtrer des données client·es basées sur un type sémantique
  3. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une liste de client·es avec des données brutes (casse incohérente des champs, champs vides, etc.) et des types sémantiques pré-explorés.

    Exemple

    Aperçu de l'échantillon de données concernant des client·es avec des types sémantiques pré-découverts.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    restructure fields
  7. Dans l'onglet Configuration :
    1. Cliquez sur l'icône Edit (Modifier) dans le mode de sélection Simple, pour ouvrir l'arborescence vous permettant de sélectionner et renommer les champs à conserver.
    2. Sélectionnez les champs suivants dans l'arborescence : ID, FIRSTNAME, LASTNAME, STATE, company_name et EMAIL.
    3. Cliquez sur l'icône Rename (Renommer) près des champs et renommez-les respectivement en : ID, Firstname, Lastname, State, CompanyName et Email.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après la sélection et l'opération de renommage.

    Aperçu du processeur Field selector après réorganisation des enregistrements client·es.
  9. Cliquez sur le bouton + et ajoutez un processeur Semantic filter au pipeline. Le panneau de Configuration s’affiche.
  10. Donnez un nom significatif au processeur.

    Exemple

    filter on valid US phones and emails (filtrer sur les numéros de téléphones des États-Unis et adresses e-mail valides)
  11. Dans la zone Filters (Filtres) :
    1. Sélectionnez .PhoneNumber dans la liste Input (Entrée), car vous souhaitez filtrer ce champ selon le type sémantique associé : Phone numbers (numéros de téléphone).
    2. Sélectionnez Valid (Valid) dans la liste Keep only (Conserver uniquement), car vous souhaitez conserver uniquement les valeurs valides après rapprochement par rapport aux types sémantiques de numéros de téléphone.
    3. Ajoutez un autre champ et sélectionnez .Email dans la liste Input (Entrée), car vous souhaitez filtrer ce champ selon le type sémantique associé : Email.
    4. Sélectionnez Valid (Valide) dans la liste Keep only (Conserver uniquement), car vous souhaitez conserver uniquement les valeurs valides après rapprochement par rapport aux types sémantiques des adresses e-mail.
  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de filtre : vous pouvez voir qu'un enregistrement contient une valeur d'adresse e-mail invalide (le caractère @ est manquant) et deux enregistrements ont des valeurs de numéros de téléphone invalides (chiffres manquants) lors du rapprochement avec leurs types sémantiques.

    Aperçu du processeur Semantic filter après filtrage sur les enregistrements valides contenant des numéros de téléphone et des adresses e-mail.
  13. Cliquez sur l'élément ADD DESTINATION (AJOUTER UNE DESTINATION) près du processeur Semantic filter et sélectionnez le jeu de données qui contiendra les données correspondant aux critères de filtre. les données avec des valeurs valides.
    Renommez-le si nécessaire.
  14. Cliquez sur le bouton Doesn't match filter (Ne correspond pas au filtre) du processeur Semantic filter et cliquez sur l'élément ADD DESTINATION (Ajouter une destination) afin de sélectionner le jeu de données qui contiendra vos données rejetées : les données avec des valeurs invalides.
  15. Donnez un nom significatif à la Destination.

    Exemple

    invalid customer data (Données client·es invalides)
  16. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  17. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution. Les données sont filtrées selon les types sémantiques sélectionnés et les flux de sortie sont envoyés vers les destinations définies.

Que faire ensuite

Vous pouvez également envoyer vos enregistrements non valides vers une destination campagne Data Stewardship. Cela permet aux data stewards de vérifier et corriger les données invalides.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !