Spark Streamingフレームワークを使ってビッグデータストリーミングジョブを設定する

Spark Streamingフレームワークを使ってビッグデータストリーミングジョブを設定する - 7.3

Kinesis

Version

7.3

Language

日本語

Product

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > Kinesis

データガバナンス > サードパーティーシステム > メッセージングコンポーネント > Kinesis

データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > Kinesis

Last publication date

2024-02-22

ジョブを実行する前に、Amazon EMRクラスターを使うようにジョブを設定する必要があります。

ジョブはSparkで実行されるため、tHDFSConfigurationコンポーネントを追加し、リポジトリーからのHDFS接続メタデータを使うように設定する必要があります。
[Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックします。
[Cluster Version] (クラスターバージョン)パネルで、クラスター接続メタデータを使うようにジョブを設定するために使われます。
[Batch size] (バッチサイズ)を2000ミリ秒に設定します。
詳細プロパティを一部設定するので、プロパティタイプを組み込みに変更します。
[Tuning] (調整)パネルで[Set tuning properties] (調整プロパティーの設定)オプションを選択し、フィールドを次のように設定します。
ジョブを実行します。

コンソールにデータが表示されるまで数分かかります。