Cloudera Navigatorを使ってデータ来歴を設定 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-03-20
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Cloudera Navigatorに対するサポートがTalend Sparkジョブに追加されました。

ジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがSparkジョブによってどう生成されたかを確認できます。

たとえば、以下のジョブをデザインし、それに関する来歴情報を生成するとします。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Hadoop configuration] (Hadoop設定)タブをクリックします(Sparkジョブの場合、使用するタブは[Spark configuration] (Spark設定)です)。
  2. [Distribution] (ディストリビューション)リストからClouderaを選択し、[Version] (バージョン)リストからCloudera 5.5を選択します。[Use Cloudera Navigator] (Cloudera Navigatorの使用)チェックボックスが表示されます。

    このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

    • [Username] (ユーザー名)および[Password] (パスワード): Cloudera Navigatorへの接続に使用する認証情報です。

    • Cloudera Navigator URL: Cloudera Navigatorの接続先を入力します。

    • [Cloudera Navigator Metadata URL] (Cloudera NavigatorメタデータURL): ナビゲーターメタデータの場所を入力します。

    • [Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するよう設定する場合は、このチェックボックスを選択します。

      このオプションを指定すると、Cloudera NavigatorはHDFSファイルとディレクトリー、HiveクエリーまたはPigスクリプトなど、利用可能なすべてのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。

    • [Kill the job if Cloudera Navigator fails] (Cloudera Navigatorにエラーが発生したらジョブを強制終了): このチェックボックスをオンにすると、Cloudera Navigatorへの接続が失敗した時にジョブの実行が停止されます。それ以外の場合は、解除してジョブが実行を継続できるようにしてください。
    • Disable SSL validation (SSL認証を無効化): SSL認証プロセスを経ずにCloudera Navigatorに接続することをジョブに指示する場合は、このチェックボックスを選択します。

      この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。

タスクの結果

この時点までに、Cloudera Navigatorへの接続がセットアップ済みとなっています。このジョブを実行する時は、Cloudera Navigator内に来歴が自動的に生成されています。

ジョブを正しく実行するには、[Spark configuration] (Spark設定)タブでさらにその他のパラメーターを設定する必要があります。

ジョブの実行が完了したら、このジョブによって書かれたデータをCloudera Navigatorで検索し、Cloudera Navigatorでこのデータの来歴を確認します。

この来歴グラフをStudio内のジョブと比較すると、すべてのコンポーネントがこのグラフに表示されていることが確認できます。また、各コンポーネントのアイコンを展開し、使用されているスキーマを読むことができます。

Cloudera NavigatorではClouderaSDKライブラリーを使用して機能が提供されるため、このSDKライブラリーのバージョンと互換性があるはずです。Cloudera Navigatorのバージョンは、ClouderaディストリビューションによってインストールされたCloudera Managerによって決まります。また、Navigatorのバージョンに基づいて、対応しているSDKが自動的に使用されます。

ただし、Cloudera Navigatorのバージョンによっては、対応しているSDKのバージョンがない場合があります。Cloudera SDKのバージョンと互換性があるNavigatorのバージョンの詳細は、Cloudera NavigatorとSDKバージョンの互換性に関するClouderaのドキュメンテーションをご覧ください。

StudioでサポートされているCloudera Navigatorバージョンの詳細は、サポートされているCloudera Navigatorのバージョンをご覧ください。