Extraire le champ du hashtag depuis des données brutes de Tweets - Cloud - 8.0

Kafka

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
Gouvernance de données > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
Qualité et préparation de données > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
Last publication date
2024-03-04

Procédure

  1. Double-cliquez sur le tExtractJSONFields pour ouvrir sa vue Component.
    Comme vous pouvez lire à l'adresse suivante, https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtags (en anglais), les données brutes des Tweets utilisent le format JSON.
  2. Cliquez sur Sync columns pour récupérer le schéma du composant précédent. Le schéma récupéré est celui en lecture seule du tKafkaInput, puisque le tWindow n'a pas d'impact sur le schéma.
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  4. Renommez la seule colonne du schéma de sortie en hashtag. Cette colonne est utilisée pour contenir le champ hashtag extrait des données JSON des Tweets.
  5. Cliquez sur OK pour valider ces modifications.
  6. Dans la liste Read by, sélectionnez JsonPath.
  7. Dans la liste JSON field, sélectionnez la colonne du schéma d'entrée de laquelle extraire les champs. Dans ce scénario, cette colonne est payload.
  8. Dans le champ Loop Jsonpath query, saisissez le chemin JSON pointant vers l'élément sur lequel se base la boucle d'extraction se base. Selon la structure JSON d'un Tweet, comme vous pouvez voir dans la documentation de Twitter, saisissez $.entities.hashtags pour effectuer une boucle sur l'entité hashtags.
  9. Dans la table Mapping, dans laquelle la colonne hashtag du schéma de sortie a été automatiquement renseignée, saisissez l'élément sur lequel effectuer l'extraction. Dans cet exemple, celui-ci est l'attribut text de chaque entité hashtags. Saisissez text entre guillemets doubles dans la colonne Json query.