ジョブを実行する前に、Amazon EMRクラスターを使うようにジョブを設定する必要があります。
手順
-
ジョブはSparkで実行されるため、tHDFSConfigurationコンポーネントを追加し、リポジトリーからのHDFS接続メタデータを使うように設定する必要があります。
- [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックします。
-
[Cluster Version] (クラスターバージョン)パネルで、クラスター接続メタデータを使うようにジョブを設定するために使われます。
- [Batch size] (バッチサイズ)を2000ミリ秒に設定します。
- 詳細プロパティを一部設定するので、プロパティタイプを組み込みに変更します。
-
[Tuning] (調整)パネルで[Set tuning properties] (調整プロパティーの設定)オプションを選択し、フィールドを次のように設定します。
-
ジョブを実行します。
コンソールにデータが表示されるまで数分かかります。