手順
- [Basic configuration] (基本設定)セクションで、マイクロバッチ間隔の数値をミリ秒単位で入力します。
- ストリーミングタイムアウトをミリ秒で定義します。
- オプション: Yarnキューを定義します。
- オプション: ドライバープロセスに使用するドライバーコアの数を入力します。
- オプション: ドライバープロセス(SparkContextの初期化)に使用するメモリの量をメガバイト単位で定義します。
- 転送するjarファイルなどの一時ファイルをローカルシステムに保存する一時ストレージへのパスを定義します。
-
Yarn戦略をドロップダウンリストから選択します。
- [Dynamic] (ダイナミック): ダイナミックリソース割り当ては、登録済みエグゼキューターの数を負荷に応じてスケールアップ/ダウンします。
- [Fixed] (固定): 負荷に関係なく、エグゼキューターの数は静的です。
- オプション:
ダイナミックモードを選択した場合は、ダイナミックな割り当てパラメーターを設定します。
- エグゼキューターの初期数を定義します。
- エグゼキューター数の上限を定義します。
- エグゼキューター数の下限を定義します。
- オプション: 固定モードを選択した場合は、エグゼキューター数を設定します。
- 各エグゼキューターが使用するコアの数を入力します。
- 各Sparkエグゼキューターが使用するメモリサイズをメガバイト単位で入力します。
-
エグゼキューターごとに割り当てるオフヒープメモリの量をメガバイト単位で入力します。
これは、VMオーバーヘッド、インターン化文字列、その他のネイティブオーバーヘッドなどに使用されるメモリです。このメモリはエグゼキューターのサイズと共に増大する傾向にあります(通常は6~10%)。
- オプション: [Checkpointing] (チェックポインティング)を有効にして、Sparkストリーミングチェックポイントがフォールトトレラントストレージシステムに十分な情報を提供できるようにして、エラーからのリカバリーを可能にします。
- オプション: チェックポイントファイルへのパスを入力します。
- オプション: [Advanced configuration] (詳細設定)セクションで[ADD PARAMETER] (パラメーターの追加)をクリックし、パラメーターを作成します。
- オプション:
新しい各パラメーターにパラメーターキーと値を入力します。
チェックポインティングを有効に設定している場合、この手順は必須です。
例え
エグゼキュータープロセスごとに使用するメモリの量を設定するには、パラメーターキーにspark.executor.memory、値のフィールドに16gと入力します。 - [SAVE] (保存)をクリックします。