Accéder au contenu principal Passer au contenu complémentaire

Extraire le champ du hashtag depuis des données brutes de Tweets

Procédure

  1. Double-cliquez sur le tExtractJSONFields pour ouvrir sa vue Component.
    Comme vous pouvez lire à l'adresse suivante, https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtags (en anglais), les données brutes des Tweets utilisent le format JSON.
  2. Cliquez sur Sync columns pour récupérer le schéma du composant précédent. Le schéma récupéré est celui en lecture seule du tKafkaInput, puisque le tWindow n'a pas d'impact sur le schéma.
  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  4. Renommez la seule colonne du schéma de sortie en hashtag. Cette colonne est utilisée pour contenir le champ hashtag extrait des données JSON des Tweets.
  5. Cliquez sur OK pour valider ces modifications.
  6. Dans la liste Read by, sélectionnez JsonPath.
  7. Dans la liste JSON field, sélectionnez la colonne du schéma d'entrée de laquelle extraire les champs. Dans ce scénario, cette colonne est payload.
  8. Dans le champ Loop Jsonpath query, saisissez le chemin JSON pointant vers l'élément sur lequel se base la boucle d'extraction se base. Selon la structure JSON d'un Tweet, comme vous pouvez voir dans la documentation de Twitter, saisissez $.entities.hashtags pour effectuer une boucle sur l'entité hashtags.
  9. Dans la table Mapping, dans laquelle la colonne hashtag du schéma de sortie a été automatiquement renseignée, saisissez l'élément sur lequel effectuer l'extraction. Dans cet exemple, celui-ci est l'attribut text de chaque entité hashtags. Saisissez text entre guillemets doubles dans la colonne Json query.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !