始める前に
Apache Atlasに対するサポートがTalend MapReduceジョブとSparkジョブに追加されました。
ジョブの実行にHortonworks Data Platform V2.4以降を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを利用して特定のデータフローの来歴をトレースし、このジョブに使用されているコンポーネントおよびコンポーネント間のスキーマの変更を含め、このデータがMapReduceまたはSparkジョブによってどう生成されたかを確認することができます。
Hortonworks Data Platform V2.4をお使いの場合、StudioはAtlas 0.5のみをサポートします。Hortonworks Data Platform.V2.5をお使いの場合、StudioはAtlas 0.7のみをサポートします。
たとえば、以下のSparkバッチジョブをデザインしたとし、そこでAtlas内にそれに関する来歴情報を生成するとします。
このジョブでは、入力データの生成にtRowGeneratorを使用し、データ処理にtMapとtSortRowを使用し、データを別の形式に出力するのに他のコンポーネントを使用します。
次のようにする必要があります。
手順
-
[Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックします(MapReduceジョブの場合、使用するタブは[Hadoop configuration] (Hadoop設定)です)。
- [Distribution] (ディストリビューション)リストから[Hortonworks]を選択し、[Version] (バージョン)リストから、たとえば[Hortonworks Data Platform V2.5.0]を選択します。
[Use Atlas] (Atlasの使用)チェックボックスが表示されます。
このオプションを有効にしたら、以下のパラメーターを設定する必要があります。
-
Atlas URL : Atlasの接続先を入力します。 多くの場合は、http://name_of_your_atlas_node:portです。
-
[Username] (ユーザー名)フィールドと[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。
-
Atlas設定フォルダーの設定 : AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスをオンにし、表示されるフィールドにローカルマシンのディレクトリを入力し、このディレクトリにAtlasのatlas-application.propertiesファイルを入れます。 こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。
この設定ファイルについては、クラスターの管理者に尋ねる必要があります。 このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションを参照してください。
-
[Die on error] (エラー強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止するには、このチェックボックスをオンにします。
それ以外の場合は、オフにしてジョブが実行を継続できるようにしてください。
次のタスク
この時点までに、Atlasへの接続がセットアップ済みとなっています。このジョブを実行するときには、Atlas内に来歴が自動的に生成されています。
ジョブを正常に実行するには、[Spark configuration] (Spark設定)タブでさらにその他のパラメーターを設定する必要があります。詳細は、Studioの『入門ガイド』でSparkバッチジョブの例を参照して下さい。
ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。