RAWツイートデータからハッシュタグフィールドを抽出する - 7.3

Kafka

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > Kafka
データガバナンス > サードパーティーシステム > メッセージングコンポーネント > Kafka
データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > Kafka

手順

  1. tExtractJSONFieldsをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
    https://dev.twitter.com/overview/api/entities-in-twitter-objects#hashtagsからわかるように、RAWツイートデータはJSON形式を使います。
  2. [Sync columns] (カラムの同期)をクリックして、先行のコンポーネントからスキーマを取得します。これは実際にはtKafkaInputの読み取り専用スキーマです。tWindowがスキーマに影響しないからです。
  3. [Edit schema] (スキーマの編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  4. 出力スキーマの単一のカラムの名前をhashtagに変更します。このカラムは、ツイートJSONデータから抽出されたhashtagフィールドを載せるために使われます。
  5. [OK]をクリックして、これらの変更を検証します。
  6. [Read by] (読み取り)リストからJsonPathを選択します。
  7. [JSON field] (JSONフィールド)リストから、フィールドを抽出する必要がある入力スキーマのカラムを選択します。このシナリオではpayloadです。
  8. [Loop Jsonpath query] (ループJsonpathクエリー)フィールドに、抽出がループされるエレメントを指すJSONパスを入力します。Twitterのドキュメントから読み取れるツイートのJSON構造に従って、$.entities.hashtagsと入力して、hashtagsエンティティをループします。
  9. 出力スキーマのhashtagカラムが自動的に入力されている[Mapping] (マッピング)テーブルに、抽出を実行するエレメントを入力します。この例では、各hashtagsエンティティのtext属性です。したがって、[Json query] (Jsonクエリー)カラムにtextを二重引用符で囲んで入力します 。