Atlasを使ってデータ来歴を設定 - Cloud

Talend Cloud Big Data Studio ユーザーガイド

Version
Cloud
Language
日本語 (日本)
EnrichDitaval
Big Data
Product
Talend Cloud
Module
Talend Studio
Content
ジョブデザインと開発

Apache Atlasに対するサポートがTalend Sparkジョブに追加されました。

ジョブの実行にHortonworks Data Platform V2.4以降を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがSparkジョブによってどう生成されたかを確認できます。ClouderaクラスターにApache Atlasがインストールされており、CDP Private Cloud BaseまたはCDP Public Cloudを使って自分のジョブを実行している場合は、ジョブの実行でAtlasを使うこともできます。

Talend StudioによるAtlaのサポートは、お使いのHortonworks Data Platformのバージョンによって異なります。
  • Hortonworks Data Platform V2.4の場合、StudioによるサポートはAtlas 0.5のみ
  • Hortonworks Data Platform V2.5の場合、StudioによるサポートはAtlas 0.7のみ
  • Hortonworks Data Platform V3.14の場合、StudioによるサポートはAtlas 1.1のみ

たとえば以下のSpark Batchジョブをデザインし、そこでAtlas内にそれに関する来歴情報を生成するとします。

このジョブでは、入力データの生成にtRowGeneratorを使用し、データ処理にtMaptSortRowを使用し、データを別の形式に出力するのに他のコンポーネントを使用します。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Sparkの設定)タブをクリックします。
  2. [Distribution] (ディストリビューション)リストと[Version] (バージョン)リストからHortonworksディストリビューションを選択します。[Use Atlas] (Atlasの使用)チェックボックスが表示されます。

    このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

    • Atlas URL: Atlasの接続先を入力します。http://name_of_your_atlas_node:portとなる場合がほとんどです。

    • [Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。

    • Atlas設定フォルダーの設定: AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスをオンにし、表示されるフィールドにローカルマシンのディレクトリーを入力し、このディレクトリーにAtlasのatlas-application.propertiesファイルを入れます。こうすることでジョブが有効になり、これらのカスタムプロパティを利用できるようになります。

      この設定ファイルは、クラスターの管理者に尋ねる必要があります。このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションをご覧ください。

    • [Die on error] (エラー発生時に強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止するには、このチェックボックスをオンにします。それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

タスクの結果

この時点までに、Atlasへの接続がセットアップ済みとなっています。このジョブを実行する時は、Atlas内に来歴が自動的に生成されています。

ジョブを正しく実行するには、[Spark configuration] (Spark設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Studioの入門ガイドでSpark Batchジョブの例をご覧ください。

ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。