手順
-
tExtractJSONFieldsをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtagsからわかるように、RAWツイートデータはJSON形式を使います。
- [Sync columns] (カラムを同期)をクリックして、先行のコンポーネントからスキーマを取得します。これは実際にはtKafkaInputの読み取り専用スキーマです。tWindowがスキーマに影響しないからです。
-
[Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
- 出力スキーマの単一のカラムの名前をhashtagに変更します。このカラムは、ツイートJSONデータから抽出されたhashtagフィールドを載せるために使われます。
- [OK]をクリックして、これらの変更を検証します。
- [Read by] (読み取り)リストからJsonPathを選択します。
- [JSON field] (JSONフィールド)リストから、フィールドを抽出する必要がある入力スキーマのカラムを選択します。このシナリオではpayloadです。
- [Loop Jsonpath query] (ループJsonpathクエリー)フィールドに、抽出がループされるエレメントを指すJSONパスを入力します。Twitterのドキュメントから読み取れるツイートのJSON構造に従って、$.entities.hashtagsと入力して、hashtagsエンティティをループします。
- 出力スキーマのhashtagカラムが自動的に入力されている[Mapping] (マッピング)テーブルに、抽出を実行するエレメントを入力します。この例では、各hashtagsエンティティのtext属性です。したがって、[Json query] (Jsonクエリー)カラムにtextを二重引用符で囲んで入力します 。