Clouderaナビゲーターでデータ来歴をセットアップする - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

Clouderaナビゲーターに対するサポートがTalend MapReduceジョブとSparkジョブに追加されました。

ジョブの実行にCloudera V5.5+を使用している場合は、Clouderaナビゲーターを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがMapReduceまたはSparkジョブによってどう生成されたかを確認することができます。

たとえば、以下のMapReduceジョブをデザインしたとし、そこでそれに関する来歴情報を生成するとします。

次のようにする必要があります。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Hadoop configuration] (Hadoop設定)タブをクリックします(Sparkジョブの場合、使用するタブは[Spark configuration] (Spark設定)です)。
  2. [Distribution] (ディストリビューション)リストから[Cloudera]を選択し、[Version] (バージョン)リストから[Cloudera 5.5]を選択します。
    [Use Cloudera Navigator] (Clouderaナビゲーターの使用)チェックボックスが表示されます。

    このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

    • [Username] (ユーザー名)および[Password] (パスワード): Clouderaナビゲーターへの接続に使用するクレデンシャルです。

    • [Cloudera Navigator URL] (ClouderaナビゲーターURL): Clouderaナビゲーターの接続先を入力します。

    • [Cloudera Navigator Metadata URL] (ClouderaナビゲーターメタデータURL): ナビゲーターメタデータの場所を入力します。

    • [Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にClouderaナビゲーターが現在のジョブの来歴を生成するよう設定するには、このチェックボックスをオンにします。

      このオプションを指定すると、ClouderaナビゲーターはHDFSファイルとディレクトリー、HiveクエリーまたはPigスクリプトなど、利用可能なすべてのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。

    • [Kill the job if Cloudera Navigator fails] (Clouderaナビゲーターにエラーが発生したらジョブを強制終了): Clouderaナビゲーターへの接続が失敗したときにジョブの実行を停止するには、このチェックボックスをオンにしてください。

      それ以外の場合は、オフにしてジョブが実行を継続できるようにしてください。

    • [Disable SSL validation] (SSL検証の無効化): ジョブがSSL検証プロセスなしでClouderaナビゲーターに接続するように指定するには、このチェックボックスを選択します。

      この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。

タスクの結果

この時点までに、Clouderaナビゲーターへの接続がセットアップ済みとなっています。このジョブを実行するときには、Clouderaナビゲーター内に来歴が自動的に生成されています。

ジョブを正常に実行するには、[Hadoop configuration] (Hadoop設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Studioの『入門ガイド』でMapReduceジョブの例を参照して下さい。

ジョブの実行が完了したら、このジョブによって書かれたデータをClouderaナビゲーターで検索し、Clouderaナビゲーターでこのデータの来歴を確認します。

この来歴グラフをStudio内のジョブと比較すると、すべてのコンポーネントがこのグラフに表示されていることが確認できます。また、各コンポーネントのアイコンを展開し、使用されているスキーマを読むことができます。

Cloudera NavigatorではClouderaSDKライブラリーを使用して機能が提供されるため、このSDKライブラリーのバージョンと互換性があるはずです。Cloudera NavigatorのバージョンはClouderaディストリビューションにインストールされているCloudera Managerによって決定され、互換性のあるSDKがナビゲーターのバージョンに基づいて自動的に使用されます。

ただし、すべてのCloudera Navigatorバージョンに互換性のあるSDKバージョンが存在するわけではありません。Cloudera SDKのバージョンおよび対応しているNavigatorのバージョンの詳細については、Cloudera NavigatorとSDKバージョンの互換性に関するClouderaのドキュメントを参照して下さい。

StudioによってサポートされているCloudera Navigatorのバージョンは、TalendジョブでサポートされているCloudera Navigatorのバージョンを参照して下さい。