Filtrer des données client·es basées sur des types sémantiques valides et invalides

Un pipeline avec un jeu de données source, un processeur Field Selector, un processeur Semantic filter et deux destinations.

Avant de commencer

Vous avez précédemment créé une connexion au système stockant vos données source.

Ici, une connexion de test.
Vous avez précédemment ajouté le jeu de données contenant vos données source.

Téléchargez et extrayez le fichier semantic_filter-customers.zip. Il contient une liste de client·es avec leurs données brutes. Vous pouvez trouver ce fichier en pièce jointe à ce document.
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

Les fichiers sont stockés dans deux jeux de données de test.

Procédure

Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
Filtrer des données client·es basées sur un type sémantique
Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une liste de client·es avec des données brutes (casse incohérente des champs, champs vides, etc.) et des types sémantiques pré-explorés.
Exemple
Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
Renommez-le si nécessaire.
Cliquez sur le bouton et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
Donnez un nom significatif au processeur.
Exemple
restructure fields
Dans l'onglet Configuration :
1. Cliquez sur l'icône dans le mode de sélection Simple, pour ouvrir l'arborescence vous permettant de sélectionner et renommer les champs à conserver.
2. Sélectionnez les champs suivants dans l'arborescence : ID, FIRSTNAME, LASTNAME, STATE, company_name et EMAIL.
3. Cliquez sur l'icône près des champs et renommez-les respectivement en : ID, Firstname, Lastname, State, CompanyName et Email.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après la sélection et l'opération de renommage.
Cliquez sur le bouton et ajoutez un processeur Semantic filter au pipeline. Le panneau de Configuration s’affiche.
Donnez un nom significatif au processeur.
Exemple
filter on valid US phones and emails (filtrer sur les numéros de téléphones des États-Unis et adresses e-mail valides)
Dans la zone Filters (Filtres) :
1. Sélectionnez .PhoneNumber dans la liste Input (Entrée), car vous souhaitez filtrer ce champ selon le type sémantique associé : Phone numbers (numéros de téléphone).
2. Sélectionnez Valid (Valid) dans la liste Keep only (Conserver uniquement), car vous souhaitez conserver uniquement les valeurs valides après rapprochement par rapport aux types sémantiques de numéros de téléphone.
3. Ajoutez un autre champ et sélectionnez .Email dans la liste Input (Entrée), car vous souhaitez filtrer ce champ selon le type sémantique associé : Email.
4. Sélectionnez Valid (Valide) dans la liste Keep only (Conserver uniquement), car vous souhaitez conserver uniquement les valeurs valides après rapprochement par rapport aux types sémantiques des adresses e-mail.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de filtre : vous pouvez voir qu'un enregistrement contient une valeur d'adresse e-mail invalide (le caractère @ est manquant) et deux enregistrements ont des valeurs de numéros de téléphone invalides (chiffres manquants) lors du rapprochement avec leurs types sémantiques.
Cliquez sur l'élément ADD DESTINATION (AJOUTER UNE DESTINATION) près du processeur Semantic filter et sélectionnez le jeu de données qui contiendra les données correspondant aux critères de filtre. les données avec des valeurs valides.
Renommez-le si nécessaire.
Cliquez sur le bouton du processeur Semantic filter et cliquez sur l'élément ADD DESTINATION (Ajouter une destination) afin de sélectionner le jeu de données qui contiendra vos données rejetées : les données avec des valeurs invalides.
Donnez un nom significatif à la Destination.
Exemple
invalid customer data (Données client·es invalides)
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution. Les données sont filtrées selon les types sémantiques sélectionnés et les flux de sortie sont envoyés vers les destinations définies.

Que faire ensuite

Vous pouvez également envoyer vos enregistrements non valides vers une destination campagne Data Stewardship. Cela permet aux data stewards de vérifier et corriger les données invalides.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici

Filtrer des données client·es basées sur des types sémantiques valides et invalides

Avant de commencer

Procédure

Exemple

Exemple

Exemple

Exemple

Exemple

Résultats

Que faire ensuite

Cette page vous a-t-elle aidé ?