メイン コンテンツをスキップする 補完的コンテンツへスキップ

RAWツイートデータからハッシュタグフィールドを抽出

手順

  1. tExtractJSONFieldsをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
    https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtagsからわかるように、RAWツイートデータはJSON形式を使います。
  2. [Sync columns] (カラムを同期)をクリックして、先行のコンポーネントからスキーマを取得します。これは実際にはtKafkaInputの読み取り専用スキーマです。tWindowがスキーマに影響しないからです。
  3. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  4. 出力スキーマの単一のカラムの名前をhashtagに変更します。このカラムは、ツイートJSONデータから抽出されたhashtagフィールドを載せるために使われます。
  5. [OK]をクリックして、これらの変更を検証します。
  6. [Read by] (読み取り)リストからJsonPathを選択します。
  7. [JSON field] (JSONフィールド)リストから、フィールドを抽出する必要がある入力スキーマのカラムを選択します。このシナリオではpayloadです。
  8. [Loop Jsonpath query] (ループJsonpathクエリー)フィールドに、抽出がループされるエレメントを指すJSONパスを入力します。Twitterのドキュメントから読み取れるツイートのJSONストラクチャーに従って、$.entities.hashtagsと入力して、hashtagsエンティティをループします。
  9. 出力スキーマのhashtagカラムが自動的に入力されている[Mapping] (マッピング)テーブルに、抽出を実行するエレメントを入力します。この例では、各hashtagsエンティティのtext属性です。したがって、[Json query] (Jsonクエリー)カラムにtextを二重引用符で囲んで入力します 。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。