Cloudera Navigatorでデータ来歴を定義する - 7.3

Sparkバッチ

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ

MapReduceまたはApache Sparkのバッチジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

この来歴には、コンポーネント間でのこのジョブとスキーマの変更に使用されたコンポーネントが含まれています。

このタイプのジョブは、ビッグデータ対応のTalend製品のいずれか、またはTalend Data Fabricにサブスクライブしている場合にだけ使用できます。

手順

設定ビュー、すなわち、MapReduceジョブの[Run] (実行)タブの[Hadoop configuration] (Hadoop設定)ビュー、およびSpark Batchジョブの[Run] (実行)タブの[Spark configuration] (Spark設定)ビューで、[Use Cloudera Navigator] (Cloudera Navigatorの使用)チェックボックスをオンにします。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

  • [Username] (ユーザー名)および[Password] (パスワード): Cloudera Navigatorへの接続に使用する認証情報です。

  • Cloudera Navigator URL: Cloudera Navigatorの接続先を入力します。

  • [Cloudera Navigator Metadata URL] (Cloudera NavigatorメタデータURL): ナビゲーターメタデータの場所を入力します。

  • [Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するよう設定するには、このチェックボックスをオンにします。

    このオプションを指定すると、Cloudera NavigatorはHDFSファイルとディレクトリ、HiveクエリーまたはPigスクリプトなど、利用可能なすべてのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。

  • [Kill the job if Cloudera Navigator fails] (Cloudera Navigatorにエラーが発生したらジョブを強制終了): このチェックボックスをオンにすると、Cloudera Navigatorへの接続が失敗した時にジョブの実行が停止されます。

    それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

  • Disable SSL validation (SSL認証を無効化): SSL認証プロセスを経ずにCloudera Navigatorに接続することをジョブに指示する場合は、このチェックボックスをオンにします。

    この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。

タスクの結果

このジョブを実行する時は、Cloudera Navigator内に来歴が自動的に生成されています。

ジョブの実行が完了したら、このジョブによって書かれたデータをCloudera Navigatorで検索し、Cloudera Navigatorでこのデータの来歴を確認します。