Atlasでデータ来歴を定義する - 7.3

Sparkバッチ

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ

MapReduceまたはSparkバッチジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータがどのように生成されたかを調べることができます。

この来歴には、コンポーネント間でのこのジョブとスキーマの変更に使用されたコンポーネントが含まれています。

このタイプのジョブは、ビッグデータ対応のTalend製品のいずれか、またはTalend Data Fabricにサブスクライブしている場合にだけ使用できます。

Hortonworks Data Platform V2.4をお使いの場合、StudioはAtlas 0.5のみをサポートします。Hortonworks Data Platform.V2.5をお使いの場合、StudioはAtlas 0.7のみをサポートします。

手順

設定ビュー、すなわち、MapReduceジョブの[Run] (実行)タブの[Hadoop configuration] (Hadoop設定)ビュー、およびSpark Batchジョブの[Run] (実行)タブの[Spark configuration] (Spark設定)ビューで、[Use Atlas] (Atlasの使用)チェックボックスをオンにします。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

  • Atlas URL: Atlasの接続先を入力します。多くの場合はは、http://atlasノードの名前:ポートです。

  • [Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。

  • Atlas設定フォルダーの設定: AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、このチェックボックスをオンにし、表示されるフィールドにローカルマシンのディレクトリーを入力し、このディレクトリーにAtlasのatlas-application.propertiesファイルを入れます。こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。

    この設定ファイルは、クラスターの管理者に尋ねる必要があります。このファイルの詳細は、[Atlas configuration] (Atlas設定)のクライアント設定セクションを参照してください。

  • [Die on error] (エラー強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止するには、このチェックボックスをオンにします。

    それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

Hortonworks Data Platform V2.4をお使いの場合、StudioはAtlas 0.5のみをサポートします。Hortonworks Data Platform.V2.5をお使いの場合、StudioはAtlas 0.7のみをサポートします。

タスクの結果

このジョブを実行する時は、Atlas内に来歴が自動的に生成されています。

ジョブの実行が完了したら、このジョブによって書かれた来歴情報をAtlasで検索し、そこで来歴を読みます。

Atlasでは、ジョブによって書かれた来歴は次の2つのタイプのエンティティで構成されています。
  • ジョブ自体

  • tRowGeneratorまたはtSortRowなど、データスキーマを使用するジョブ内のコンポーネント。tHDFSConfigurationなどの接続または設定コンポーネントはスキーマを使用しないため、これらは考慮されません。