Réorganiser les enregistrements d'une étude relative au comportement des clients - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Pipeline Designer
task
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, un jeu de données d'une étude relative au comportement des clients (type de clients utilisant un appareil X ou Y, etc.) Téléchargez le fichier field_selector-customers.json depuis l'onglet Téléchargements dans le panneau gauche de la page.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans HDFS.

Procédure

  1. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Restructure Customer Schema
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici, une étude sur les clients saisie manuellement en tant que jeu de données de test.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    restructure fields
  7. Dans la zone SELECTORS :
    1. Sélectionnez .id dans la liste Input et saisissez identifier dans la liste Output, car vous souhaitez sélectionner et renommer le champ id en conservant son emplacement.
    2. Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .location[0].country dans la liste Input et country dans la liste Output, puisque vous souhaitez sélectionner le champ country du premier emplacement et le déplacer au niveau supérieur du schéma.
    3. Ajoutez un nouvel élément (NEW ELEMENT), sélectionnez .devices dans la liste Input et devices_used dans la liste Output, puisque vous souhaitez sélectionner le champ devices tout en le conservant au même emplacement.
    4. Ajoutez un nouvel élément (NEW ELEMENT), saisissez .devices[*]{.name == "other"}.ip dans la liste Input et saisissez other_devices dans la liste Output, puisque vous souhaitez sélectionner tous les champs devices ayant un sous-champ name équivalent à other.

      Vous pouvez utiliser la syntaxe avpath dans cette zone.

  8. Cliquez sur SAVE pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération de restructuration.

  9. Cliquez sur ADD DESTINATION et sélectionnez le jeu de données qui contiendra vos données réorganisées.
    Renommez-le si nécessaire.
  10. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  11. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont réorganisées selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.