Spark Streamingフレームワークを使ってビッグデータストリーミングジョブを設定する - 7.3

Kinesis

Version
7.3
Language
日本語
Product
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > Kinesis
データガバナンス > サードパーティーシステム > メッセージングコンポーネント > Kinesis
データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > Kinesis
Last publication date
2024-02-22
ジョブを実行する前に、Amazon EMRクラスターを使うようにジョブを設定する必要があります。

手順

  1. ジョブはSparkで実行されるため、tHDFSConfigurationコンポーネントを追加し、リポジトリーからのHDFS接続メタデータを使うように設定する必要があります。
  2. [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックします。
  3. [Cluster Version] (クラスターバージョン)パネルで、クラスター接続メタデータを使うようにジョブを設定するために使われます。
  4. [Batch size] (バッチサイズ)を2000ミリ秒に設定します。
  5. 詳細プロパティを一部設定するので、プロパティタイプを組み込みに変更します。
  6. [Tuning] (調整)パネルで[Set tuning properties] (調整プロパティーの設定)オプションを選択し、フィールドを次のように設定します。
  7. ジョブを実行します。

    コンソールにデータが表示されるまで数分かかります。