Réorganiser les enregistrements d'une étude relative au comportement des clients

Un pipeline avec une source de test, un processeur Field Selector et une destination HDFS.

Avant de commencer

Vous avez précédemment ajouté le jeu de données contenant vos données source.

Téléchargez et extrayez le fichier field_selector-customers.zip. Il contient un jeu de données d'une étude relative au comportement des client·es (type de client·es utilisant un appareil X ou Y, etc.).
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

Ici, un fichier stocké dans HDFS.

Procédure

Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
Donnez-lui un nom significatif.
Exemple
Restructure Customer Schema
Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici, une étude sur les clients saisie manuellement en tant que jeu de données de test.
Exemple
Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
Renommez-le si nécessaire.
Cliquez sur le bouton et ajoutez un processeur Field Selector au pipeline. Le panneau de configuration s'ouvre.
Donnez un nom significatif au processeur.
Exemple
restructure fields (restructurer les champs)
Dans la zone Selectors (Sélecteurs) du mode Advanced (Avancé) :
1. Sélectionnez .id dans la liste Input et saisissez identifier dans la liste Output, car vous souhaitez sélectionner et renommer le champ id en conservant son emplacement.
2. Cliquez sur le bouton + pour ajouter un élément, sélectionnez .location[0].country dans la liste Input et country dans la liste Output, puisque vous souhaitez sélectionner le champ country du premier emplacement et le déplacer au niveau supérieur du schéma.
3. Cliquez sur le bouton + pour ajouter un élément, sélectionnez .devices dans la liste Input et saisissez devices_uesd dans la liste Output, car vous souhaitez sélectionner le champ devices en conservant son emplacement.
4. Cliquez sur le bouton + pour ajouter un élément, saisissez .devices[*]{.name == "other"}.ip dans la liste Input et saisissez other_devices dans la liste Output, puisque vous souhaitez sélectionner tous les champs devices ayant un sous-champ name équivalent à other.
  
  Vous pouvez utiliser la syntaxe avpath dans cette zone.
Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de restructuration.
Cliquez sur ADD DESTINATION et sélectionnez le jeu de données qui contiendra vos données réorganisées.
Renommez-le si nécessaire.
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont réorganisées selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici