手順
-
tKafkaInputをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。
- [Broker list] (ブローカーリスト)フィールドに、使うKafkaクラスターのブローカーのロケーションを入力します。ロケーションはコンマ(,)で区切ります。この例では、ブローカーは1つだけ存在し、そのロケーションはlocalhost:9092です。
- [Starting offset] (開始オフセット)ドロップダウンリストから、トピックのメッセージが消費される開始点を選択します。このシナリオでは[From latest] (最新から)を選択します。これは、同じコンシューマーグループによって消費され、オフセットがコミットされた最新のメッセージから開始することを意味します。
-
[Topic name] (トピック名)フィールドに、このジョブがTwitterストリームを消費するトピックの名前を入力します。このシナリオでのトピックはtwitter_liveです。
このトピックは、Kafkaシステムに存在している必要があります。Kafkaトピックの作成方法については、Apache Kafkaのドキュメントを参照するか、Studioで提供されているtKafkaCreateTopicコンポーネントを使ってください。ただし、tKafkaCreateTopicはSparkジョブでは使えません。
- [Set number of records per second to read from each Kafka partition] (Kafkaの各パーティションから読み込む1秒あたりのレコード数を設定する)チェックボックスをオンにします。これにより、処理のために送信される各マイクロバッチのサイズが制限されます。