Traiter des chaînes de caractères relatives à des cultures récoltées - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
Création et développement > Création de Pipelines
Last publication date
2024-02-27

Un pipeline avec une source S3, deux processeurs Strings et une destination S3.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez le fichier string-crops.csv. Il contient un jeu de données concernant des cultures récoltées au Mali, ainsi que les types de cultures, la valeur de production, les zones de récolte, etc.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un jeu de données stocké dans le même bucket S3.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Process strings about harvested crops
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux cultures récoltées au Mali en 2005.

    Exemple

    Aperçu d'un échantillon de données avec des enregistrements relatifs aux cultures.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Strings au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    change crop types to upper case
  7. Dans la zone Configuration :
    1. Sélectionnez Change to upper case dans la liste Function name.
    2. Sélectionnez .crop_parent dans la liste Fields to process, car vous souhaitez convertir les valeurs des types de cultures en majuscules.
  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Aperçu du processeur Strings après modification de la casse en majuscules des enregistrements liés aux cultures.
  9. Cliquez sur le bouton + et ajoutez un processeur Strings au pipeline. Le panneau de configuration s'ouvre.
  10. Donnez un nom significatif au processeur.

    Exemple

    match crop IDs with IDs
  11. Dans la zone Configuration :
    1. Sélectionnez Match similar text dans la liste Function name.
    2. Sélectionnez .crop dans la liste Fields to process.
    3. Sélectionnez Other column dans la liste Use with et .id dans la liste Column, car vous souhaitez comparer l'identifiant du nom de la culture à l'identifiant de l'enregistrement.
    4. Saisissez 0 dans le champ Fuzziness, car vous souhaitez extraire les correspondances exactes entre les deux valeurs de champs.
  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération. Vous pouvez voir une nouvelle colonne crop_matches dans laquelle les correspondances exactes ont une valeur true et les identifiants sans correspondance ont une valeur false.

    Aperçu du processeur Strings après comparaison des enregistrements liés aux cultures en fonction de leur ID.
  13. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) et sélectionnez le jeu de données qui contiendra les données traitées.
    Renommez-le si nécessaire.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  15. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les chaînes de caractères sélectionnées ont été traitées et le flux de sortie est envoyé au bucket S3 indiqué.