Atlasでデータ来歴を定義

MapReduceまたはSpark Batchジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータがどのように生成されたかを調べることができます。

この来歴には、コンポーネント間でのこのジョブとスキーマの変更に使用されたコンポーネントが含まれています。

このタイプのジョブは、ビッグデータ対応のTalend製品のいずれか、Talend Data Fabricにサブスクライブしている場合にだけ使用できます。

Hortonworks Data Platform V2.4をお使いの場合、StudioはAtlas 0.5のみをサポートします。Hortonworks Data Platform.V2.5をお使いの場合、StudioはAtlas 0.7のみをサポートします。

手順

設定ビュー、すなわち、MapReduceジョブの[Run] (実行)タブの[Hadoop configuration] (Hadoop設定)ビュー、およびSpark Batchジョブの[Run] (実行)タブの[Spark configuration] (Spark設定)ビューで、[Use Atlas] (Atlasを使用)チェックボックスをオンにします。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

Atlas URL: Atlasの接続先を入力します。http://name_of_your_atlas_node:portとなる場合がほとんどです。
[Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。
Atlas設定フォルダーの設定: AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスをオンにし、表示されるフィールドにローカルマシンのディレクトリーを入力し、このディレクトリーにAtlasのatlas-application.propertiesファイルを入れます。こうすることでジョブが有効になり、これらのカスタムプロパティを利用できるようになります。

この設定ファイルは、クラスターの管理者に尋ねる必要があります。このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションをご覧ください。
[Die on error] (エラー発生時に強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止する場合は、このチェックボックスをオンにします。

それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

タスクの結果

このジョブを実行する時は、Atlas内に来歴が自動的に生成されています。

ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。

Atlasでは、ジョブによって書かれた来歴は次の2つのタイプのエンティティで構成されています。

ジョブ自体
tRowGeneratorまたはtSortRowなど、データスキーマを使用するジョブ内のコンポーネント。tHDFSConfigurationなどの接続または設定コンポーネントは、スキーマを使用しないため、これらは考慮されません。