Traiter des chaînes de caractères pour obtenir les sommes liées à des petits trajets en taxi - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Pipeline Designer
task
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, des données hiérarchiques concernant des taxis, notamment les heures de prise en charge et de fin de course, les tarifs, etc. (téléchargez le fichier type_converter-taxi.json depuis l'onglet Téléchargements dans le panneau de gauche de la page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans HDFS.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Convert Small Taxi Rides
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux taxis.

    Exemple

    Avertissement : Le processeur Type converter ne peut traiter de sous-enregistrement. Si vous souhaitez convertir ces enregistrements, vous devez utiliser un processeur Field selector avant, afin de réorganiser les enregistrements et de les mettre en haut du schéma.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    reorganize records
  7. Dans la zone SELECTORS :
    1. Saisissez .pickup.pickup_datetime dans la liste Input le pickup_time dans la liste Output, car vous souhaitez sélectionner et renommer le champ pickup_datetime du premier emplacement et le déplacer dans le niveau supérieur du schéma.
    2. Ajoutez un nouvel élément (NEW ELEMENT) et saisissez dropoff.dropoff_datetime dans la liste Input et dropoff_time dans la liste Output, puisque vous souhaitez sélectionner et renommer le champ dropoff_datetime du premier emplacement, puis le déplacer en haut du schéma.
    3. Ajoutez un nouvel élément (NEW ELEMENT) et saisissez .payment.fare_amount dans la liste Input et fare dans la liste Output, puisque vous souhaitez sélectionner et renommer le champ fare_amount du premier emplacement et le déplacer en haut du schéma.

      Exemple

  8. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  9. Cliquez sur et ajoutez un processeur Type converter au pipeline. Le panneau de configuration s'ouvre.
  10. Donnez un nom significatif au processeur.

    Exemple

    convert rides and fares
  11. Dans la zone CONVERTERS :
    1. Sélectionnez .pickup_time dans la liste Field path, DateTime dans la liste Output type et saisissez yyyy-MM-dd HH:mm:ss dans le champ Format, car cous souhaitez convertir le champ de type DateTime contenant les heures de prise en charge en un champ de type Integer. yyyy-MM-dd HH:mm:ss correspond au format du champ d'entrée.
      Remarque : Pour en savoir plus au sujet des modèles et formats de date, consultez Informations supplémentaires concernant les modèles de date et heure.
    2. Ajoutez un nouvel élément NEW ELEMENT, sélectionnez .dropoff_time dans la liste Field path, DateTime dans la liste Output type et saisissez yyyy-MM-dd HH:mm:ss dans le champ Format, car vous souhaitez convertir le champ de type DateTime contenant les heures de fin de courses en un champ de type Integer. yyyy-MM-dd HH:mm:ss correspond au format du champ d'entrée.
    3. Ajoutez un nouvel élément (NEW ELEMENT), sélectionnez .fare dans la liste Field path et Double dans la liste Output type, puisque vous souhaitez convertir le champ de type String contenant le prix des courses en un champ de type Double.
      Conseil : Vous avez la possibilité d'appliquer plusieurs conversions sur le même champ. Par exemple, vous pouvez convertir un champ de type String contenant une date en un champ de type Long et utiliser ce champ généré de type Long pour le convertir en un champ de type DateTime.

      Exemple

  12. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  13. Cliquez sur après le processeur Type Converter du pipeline et ajoutez un processeur Filter.
  14. Donnez un nom significatif au processeur.

    Exemple

    filter on short rides
  15. Dans la zone Filter :
    1. Saisissez .{.dropoff_time - .pickup_time > 660000} dans la liste Input, pour filtrer les courses ayant duré moins de 11 minutes.
    2. Sélectionnez COUNT dans la liste Optionally select a function to apply, > dans la liste Operator et saisissez 0 dans la liste Value puisque vous souhaitez compter ces courses rapides.
  16. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  17. (Facultatif) Consultez l'aperçu du processeur Filter pour voir les données après l'opération de filtre.

    Exemple

  18. Cliquez sur l'élément ADD DESTINATION en bas du pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra vos données (HDFS) et donnez-lui un nom significatif, short rides data par exemple.
  19. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  20. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution, les types de champs sont convertis et filtrés et le flux de sortie est envoyé vers le système cible défini.