Avant de commencer
Vous avez précédemment ajouté le jeu de données contenant vos données source.
Ici, un jeu de données d'une étude relative au comportement des clients (type de clients utilisant un appareil X ou Y, etc.) Téléchargez le fichier field_selector-customers.json depuis l'onglet Téléchargements dans le panneau gauche de la page.
Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.
Ici, un fichier stocké dans HDFS.
Procédure
-
Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
- Donnez-lui un nom significatif.
Exemple
Restructure Customer Schema
- Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici, une étude sur les clients saisie manuellement en tant que jeu de données de test.
Exemple
-
Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
Renommez-le si nécessaire.
-
Cliquez sur
et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
- Donnez un nom significatif au processeur.
Exemple
restructure fields
- Dans la zone SELECTORS :
-
Sélectionnez .id dans la liste Input et saisissez identifier dans la liste Output, car vous souhaitez sélectionner et renommer le champ
id
en conservant son emplacement.
-
Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .location[0].country dans la liste Input et country dans la liste Output, puisque vous souhaitez sélectionner le champ
country
du premier emplacement et le déplacer au niveau supérieur du schéma.
-
Ajoutez un nouvel élément (NEW ELEMENT), sélectionnez .devices dans la liste Input et devices_used dans la liste Output, puisque vous souhaitez sélectionner le champ
devices
tout en le conservant au même emplacement.
-
Ajoutez un nouvel élément (NEW ELEMENT), saisissez .devices[*]{.name == "other"}.ip dans la liste Input et saisissez other_devices dans la liste Output, puisque vous souhaitez sélectionner tous les champs
devices
ayant un sous-champ name
équivalent à other
.
Vous pouvez utiliser la syntaxe avpath dans cette zone.
- Cliquez sur SAVE pour sauvegarder votre configuration.
Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de restructuration.
- Cliquez sur ADD DESTINATION et sélectionnez le jeu de données qui contiendra vos données réorganisées.
Renommez-le si nécessaire.
-
Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
-
Cliquez sur l'icône d'exécution
pour exécuter votre pipeline.
Résultats
Votre pipeline est en cours d’exécution, les données sont réorganisées selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.