Clouderaナビゲーターでデータ来歴をセットアップする - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Clouderaナビゲーターに対するサポートがTalend MapReduceジョブとSparkジョブに追加されました。

ジョブの実行にCloudera V5.5+を使用している場合は、Clouderaナビゲーターを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがMapReduceまたはSparkジョブによってどう生成されたかを確認することができます。

たとえば、以下のMapReduceジョブをデザインしたとし、そこでそれに関する来歴情報を生成するとします。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Hadoop configuration] (Hadoop設定)タブをクリックします(Sparkジョブの場合、使用するタブは[Spark configuration] (Spark設定)です)。
  2. [Distribution] (ディストリビューション)リストからClouderaを選択し、[Version] (バージョン)リストからCloudera 5.5を選択します。[Use Cloudera Navigator] (Clouderaナビゲーターの使用)チェックボックスが表示されます。

    このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

    • [Username] (ユーザー名)および[Password] (パスワード): Clouderaナビゲーターへの接続に使用するクレデンシャルです。

    • [Cloudera Navigator URL] (ClouderaナビゲーターURL): Clouderaナビゲーターの接続先を入力します。

    • [Cloudera Navigator Metadata URL] (ClouderaナビゲーターメタデータURL): ナビゲーターメタデータの場所を入力します。

    • [Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にClouderaナビゲーターが現在のジョブの来歴を生成するよう設定するには、このチェックボックスをオンにします。

      このオプションを指定すると、ClouderaナビゲーターはHDFSファイルとディレクトリー、HiveクエリーまたはPigスクリプトなど、利用可能な全てのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。

    • [Kill the job if Cloudera Navigator fails] (Clouderaナビゲーターにエラーが発生したらジョブを強制終了): このチェックボックスを選択すると、Clouderaナビゲーターへの接続が失敗したときにジョブの実行が停止されます。

      それ以外の場合は、オフにしてジョブが実行を継続できるようにして下さい。

    • Disable SSL validation (SSL認証を無効化): SSL認証プロセスを経ずにCloudera Navigatorに接続することをジョブに指示する場合は、このチェックボックスを選択します。

      この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。

タスクの結果

この時点までに、Clouderaナビゲーターへの接続がセットアップ済みとなっています。このジョブを実行するときには、Clouderaナビゲーター内に来歴が自動的に生成されています。

ジョブを正常に実行するには、[Hadoop configuration] (Hadoop設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Studioの『入門ガイド』でMapReduceジョブの例を参照してください.

ジョブの実行が完了したら、このジョブによって書かれたデータをClouderaナビゲーターで検索し、Clouderaナビゲーターでこのデータの来歴を確認します。

この来歴グラフをStudio内のジョブと比較すると、すべてのコンポーネントがこのグラフに表示されていることが確認できます。また、各コンポーネントのアイコンを展開し、使用されているスキーマを読むことができます。

Cloudera NavigatorではClouderaSDKライブラリーを使用して機能が提供されるため、このSDKライブラリーのバージョンと互換性があるはずです。Cloudera Navigatorのバージョンは、ClouderaディストリビューションによってインストールされたCloudera Managerによって決まります。また、Navigatorのバージョンに基づいて、対応しているSDKが自動的に使用されます。

ただし、Cloudera Navigatorのバージョンによっては、対応しているSDKのバージョンがない場合があります。Cloudera SDKのバージョンおよび対応しているNavigatorのバージョンの詳細については、Cloudera NavigatorとSDKバージョンの互換性に関するClouderaのドキュメンテーションを参照して下さい。

StudioによってサポートされているCloudera Navigatorのバージョンは、TalendジョブでサポートされているCloudera Navigatorのバージョンを参照してください。