Extraire le champ du hashtag depuis des données brutes de Tweets - 7.0

Kafka

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
Gouvernance de données > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
Qualité et préparation de données > Systèmes tiers > Composants Messaging (Intégration) > Composants Kafka
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tExtractJSONFields pour ouvrir sa vue Component.
    Comme vous pouvez lire à l'adresse suivante, https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtags (en anglais), les données brutes des Tweets utilisent le format JSON.
  2. Cliquez sur Sync columns afin de récupérer le schéma du composant précédent. Le schéma récupéré est celui en lecture seule du tKafkaInput, puisque le tWindow n'a pas d'impact sur le schéma.
  3. Cliquez sur le boutoun [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  4. Renommez la seule colonne du schéma de sortie en hashtag. Cette colonne est utilisée pour contenir le champ hashtag extrait des données JSON des Tweets.
  5. Cliquez sur OK afin de valider les modifications.
  6. Dans la liste Read by, sélectionnez JsonPath.
  7. Dans la liste JSON field, sélectionnez la colonne du schéma d'entrée de laquelle extraire les champs. Dans ce scénario, cette colonne est payload.
  8. Dans le champ Loop Jsonpath query, saisissez le chemin JSON pointant vers l'élément sur lequel se base la boucle d'extraction se base. Selon la structure JSON d'un Tweet, comme vous pouvez voir dans la documentation de Twitter, saisissez $.entities.hashtags pour effectuer une boucle sur l'entité hashtags.
  9. Dans la table Mapping, dans laquelle la colonne hashtag du schéma de sortie a été automatiquement renseignée, saisissez l'élément sur lequel effectuer l'extraction. Dans cet exemple, celui-ci est l'attribut text de chaque entité hashtags. Saisissez text entre guillemets doubles dans la colonne Json query.