このページ上

メインコンテンツをスキップする

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

RAWツイートデータからハッシュタグフィールドを抽出

手順

tExtractJSONFieldsをダブルクリックして、[Component] (コンポーネント)ビューを開きます。

https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtagsからわかるように、RAWツイートデータはJSON形式を使います。
[Sync columns] (カラムを同期)をクリックして、先行のコンポーネントからスキーマを取得します。これは実際にはtKafkaInputの読み取り専用スキーマです。tWindowがスキーマに影響しないからです。
[Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
出力スキーマの単一のカラムの名前をhashtagに変更します。このカラムは、ツイートJSONデータから抽出されたhashtagフィールドを載せるために使われます。
[OK]をクリックして、これらの変更を検証します。
[Read by] (読み取り)リストからJsonPathを選択します。
[JSON field] (JSONフィールド)リストから、フィールドを抽出する必要がある入力スキーマのカラムを選択します。このシナリオではpayloadです。
[Loop Jsonpath query] (ループJsonpathクエリー)フィールドに、抽出がループされるエレメントを指すJSONパスを入力します。Twitterのドキュメントから読み取れるツイートのJSONストラクチャーに従って、$.entities.hashtagsと入力して、hashtagsエンティティをループします。
出力スキーマのhashtagカラムが自動的に入力されている[Mapping] (マッピング)テーブルに、抽出を実行するエレメントを入力します。この例では、各hashtagsエンティティのtext属性です。したがって、[Json query] (Jsonクエリー)カラムにtextを二重引用符で囲んで入力します。

このページは役に立ちましたか?

こちらにフィードバックをお寄せください