特定のKafkaトピックからメッセージを読み取る - 7.3

Kafka

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > Kafka
データガバナンス > サードパーティーシステム > メッセージングコンポーネント > Kafka
データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > Kafka

手順

  1. tKafkaInputをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。
  2. [Broker list] (ブローカーリスト)フィールドに、使うKafkaクラスターのブローカーのロケーションを入力します。ロケーションはカンマ(,)で区切ります。この例では、ブローカーは1つだけ存在し、そのロケーションはlocalhost:9092です。
  3. [Starting offset] (開始オフセット)ドロップダウンリストから、トピックのメッセージが消費される開始点を選択します。このシナリオでは、[From latest] (最新から)を選択します。これは、同じコンシューマーグループによって消費され、オフセットがコミットされた最新のメッセージから開始することを意味します。
  4. [Topic name] (トピック名)フィールドに、このジョブがTwitterストリームを消費するトピックの名前を入力します。このシナリオでは、トピックはtwitter_liveです。
    このトピックは、Kafkaシステムに存在している必要があります。Kafkaトピックの作成方法については、Apache Kafkaのドキュメントを参照するか、Studioで提供されているtKafkaCreateTopicコンポーネントを使ってください。ただし、tKafkaCreateTopicはSparkジョブでは使えません。
  5. [Set number of records per second to read from each Kafka partition] (Kafkaの各パーティションから読み込む1秒あたりのレコード数を設定する)チェックボックスをオンにします。これにより、処理のために送信される各マイクロバッチのサイズが制限されます。