Apache Sparkジョブのロギングとアクティビティのチェックポインティング

問題が発生した場合にSparkジョブのデバッグや再開ができるよう、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでロギングとチェックポインティングを有効にしておくことをお勧めします。

このセクションの情報は、Talend Data Fabric、またはビッグデータ関連のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。

手順

ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを、表示されたフィールドに入力します。

Sparkチェックポイント操作に関する詳細は、の公式Sparkドキュメンテーションをご覧ください。
[Yarn client] (Yarnクライアント)モードまたは[Yarn cluster] (Yarnクラスター)では、このジョブのSparkアプリケーションログを有効にして、ファイルシステム内でログを持続させることができます。それには、[Enable Spark event logging] (Sparkイベントロギングを有効化)チェックボックスをオンにします。
Sparkログに関わるパラメーターが表示されます。
- Spark event logs directory (Sparkイベントログディレクトリー): Sparkイベントを記録するディレクトリーを入力します。これは実質的にspark.eventLog.dirプロパティです。
- Spark history server address (Sparkヒストリーサーバーアドレス): 履歴サーバーの場所を入力します。これは実質的にspark.yarn.historyServer.addressプロパティです。
- Compress Spark event logs (Sparkイベントログを圧縮): 必要な場合はこのチェックボックスをオンにしてログを圧縮します。これは実質的にspark.eventLog.compressプロパティです。
クラスターの管理者によってこれらのプロパティがクラスター設定ファイル内で定義されている場合があるので、管理者に正確な値を問い合わせることをお勧めします。
ジョブが開始するSparkコンテキストをログに出力する場合は、spark.logConfプロパティを[Advanced properties] (詳細プロパティ)テーブルに追加し、このテーブルの[Value] (値)カラムで、二重引用符内にtrueと入力します。

クラスターの管理者によってこれらのプロパティがクラスター設定ファイル内で定義されている場合があるので、管理者に正確な値を問い合わせることをお勧めします。

Apache Sparkジョブのロギングとアクティビティのチェックポインティング - 7.3

Spark Batch

手順