ビッグデータ実行プロファイルの設定 - Cloud

Talend Cloud Management Console for Pipelinesユーザーガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Management Console
task
デプロイメント > スケジューリング > タスクのスケジューリング
デプロイメント > デプロイ中 > タスクの実行
管理と監視 > プロジェクトの管理
管理と監視 > ユーザーの管理

手順

  1. [Basic configuration] (基本設定)セクションで、マイクロバッチ間隔の数値をミリ秒単位で入力します。
  2. ストリーミングタイムアウトをミリ秒で定義します。
  3. オプション: Yarnキューを定義します。
  4. オプション: ドライバープロセスに使用するドライバーコアの数を入力します。
  5. オプション: ドライバープロセス(SparkContextの初期化)に使用するメモリの量をメガバイト単位で定義します。
  6. 転送するjarファイルなどの一時ファイルをローカルシステムに保存する一時ストレージへのパスを定義します。
  7. Yarn戦略をドロップダウンリストから選択します。
    • [Dynamic] (ダイナミック): ダイナミックリソース割り当ては、登録済みエグゼキューターの数を負荷に応じてスケールアップ/ダウンします。
    • [Fixed] (固定): 負荷に関係なく、エグゼキューターの数は静的です。
  8. オプション: ダイナミックモードを選択した場合は、ダイナミックな割り当てパラメーターを設定します。
    1. エグゼキューターの初期数を定義します。
    2. エグゼキューター数の上限を定義します。
    3. エグゼキューター数の下限を定義します。
  9. オプション: 固定モードを選択した場合は、エグゼキューター数を設定します。
  10. 各エグゼキューターが使用するコアの数を入力します。
  11. 各Sparkエグゼキューターが使用するメモリサイズをメガバイト単位で入力します。
  12. エグゼキューターごとに割り当てるオフヒープメモリの量をメガバイト単位で入力します。
    これは、VMオーバーヘッド、インターン化文字列、その他のネイティブオーバーヘッドなどに使用されるメモリです。このメモリはエグゼキューターのサイズと共に増大する傾向にあります(通常は6~10%)。
  13. オプション: [Checkpointing] (チェックポインティング)を有効にして、Sparkストリーミングチェックポイントがフォールトトレラントストレージシステムに十分な情報を提供できるようにして、エラーからのリカバリーを可能にします。
  14. オプション: チェックポイントファイルへのパスを入力します。
  15. オプション: [Advanced configuration] (詳細設定)セクションで[ADD PARAMETER] (パラメーターの追加)をクリックし、パラメーターを作成します。
  16. オプション: 新しい各パラメーターにパラメーターキーと値を入力します。
    チェックポインティングを有効に設定している場合、この手順は必須です。

    例え

    エグゼキュータープロセスごとに使用するメモリの量を設定するには、パラメーターキーにspark.executor.memory、値のフィールドに16gと入力します。
  17. [SAVE] (保存)をクリックします。