Traiter des chaînes de caractères relatives à des cultures récoltées - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, un jeu de données contenant des données concernant des cultures récoltées au Mali, avec les types de cultures, la valeur de production, les zones récoltées, etc (téléchargez le fichier string-crops.csv depuis l'onglet Téléchargements du panneau de gauche de cette page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un jeu de données stocké dans le même bucket S3.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Process strings about harvested crops
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux cultures récoltées au Mali en 2005.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Strings au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    change crop types to upper case
  7. Dans la zone CONFIGURATION :
    1. Sélectionnez Change to upper case dans la liste Function name.
    2. Sélectionnez .crop_parent dans la liste Fields to process, car vous souhaitez convertir les valeurs des types de cultures en majuscules.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

  9. Cliquez sur et ajoutez un autre processeur Strings au pipeline. Le panneau de configuration s'ouvre.
  10. Donnez un nom significatif au processeur.

    Exemple

    match crop IDs with IDs
  11. Dans la zone CONFIGURATION :
    1. Sélectionnez Match similar text dans la liste Function name.
    2. Sélectionnez .crop dans la liste Fields to process.
    3. Sélectionnez Other column dans la liste Use with et .id dans la liste Column, car vous souhaitez comparer l'identifiant du nom de la culture à l'identifiant de l'enregistrement.
    4. Saisissez 0 dans le champ Fuzziness, car vous souhaitez extraire les correspondances exactes entre les deux valeurs de champs.
  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération. Vous pouvez voir une nouvelle colonne crop_matches dans laquelle les correspondances exactes ont une valeur true et les identifiants sans correspondance ont une valeur false.

  13. Cliquez sur l'élément ADD DESTINATION et sélectionnez le jeu de données qui contiendra les données traitées.
    Renommez-le si nécessaire.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  15. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les chaînes de caractères sélectionnées ont été traitées et le flux de sortie est envoyé au bucket S3 indiqué.