Atlasを使ってデータ来歴を設定 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Apache Atlasに対するサポートがTalend Sparkジョブに追加されました。

ジョブの実行にHortonworks Data Platform V2.4以降を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがSparkジョブによってどう生成されたかを確認できます。

Hortonworks Data Platform V2.4をお使いの場合、StudioはAtlas 0.5のみをサポートします。Hortonworks Data Platform.V2.5をお使いの場合、StudioはAtlas 0.7のみをサポートします。

たとえば以下のSpark Batchジョブをデザインし、そこでAtlas内にそれに関する来歴情報を生成するとします。

このジョブでは、入力データの生成にtRowGeneratorを使用し、データ処理にtMaptSortRowを使用し、データを別の形式に出力するのに他のコンポーネントを使用します。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Sparkの設定)タブをクリックします。
  2. [Distribution] (ディストリビューション)リストと[Version] (バージョン)リストからHortonworksディストリビューションを選択します。[Use Atlas] (Atlasを使用)チェックボックスが表示されます。

    このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

    • Atlas URL: Atlasの接続先を入力します。http://name_of_your_atlas_node:portとなる場合がほとんどです。

    • [Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。

    • Atlas設定フォルダーの設定: AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスをオンにし、表示されるフィールドにローカルマシンのディレクトリーを入力し、このディレクトリーにAtlasのatlas-application.propertiesファイルを入れます。こうすることでジョブが有効になり、これらのカスタムプロパティを利用できるようになります。

      この設定ファイルは、クラスターの管理者に尋ねる必要があります。このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションをご覧ください。

    • [Die on error] (エラー発生時に強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止するには、このチェックボックスをオンにします。それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

タスクの結果

この時点までに、Atlasへの接続がセットアップ済みとなっています。このジョブを実行する時は、Atlas内に来歴が自動的に生成されています。

ジョブを正しく実行するには、[Spark configuration] (Spark設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Studioの入門ガイドでSpark Batchジョブの例をご覧ください。

ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。