Apache Spark BatchのtAzureFSConfigurationプロパティ - Cloud

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtAzureFSConfigurationを設定するために使われます。

Spark BatchのtAzureFSConfigurationコンポーネントは、ストレージファミリーに属しています。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Azure FileSystem] (Azureファイルシステム)	使用するファイルシステムを選択します。定義するパラメーターが表示されます。このコンポーネントは、実際のユーザーデータまたはビジネスデータをData Lake Storageシステムに保存するように設計されており、HDInsightでプライマリストレージとして定義されているData Lake Storageとは互換性がありません。このため、このコンポーネントをHDInsightと共に使用している場合は、HDInsightの起動時にプライマリストレージに必ずBlobストレージを設定し、Data Lake Storageは設定しないでください。

[Azure FileSystem] (Azureファイルシステム)

使用するファイルシステムを選択します。定義するパラメーターが表示されます。

このコンポーネントは、実際のユーザーデータまたはビジネスデータをData Lake Storageシステムに保存するように設計されており、HDInsightでプライマリストレージとして定義されているData Lake Storageとは互換性がありません。このため、このコンポーネントをHDInsightと共に使用している場合は、HDInsightの起動時にプライマリストレージに必ずBlobストレージを設定し、Data Lake Storageは設定しないでください。

このコンポーネントをAzure Blob Storageで使う場合:

[Blob storage account] (Blobストレージアカウント)	アクセスする必要のあるストレージアカウントの名前を入力します。ストレージアカウント名は、使用するMicrosoft Azure Storageシステムのストレージアカウントダッシュボード内にあります。このストレージアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。
[Account key] (アカウントキー)	アクセスする必要のあるストレージアカウントに関連付けられたキーを入力します。どのアカウントでも利用できるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。ドロップダウンリストから、Azure Storageへの接続を設定するために接続の詳細を使用するコンポーネントを選択します。
[Container] (コンテナー)	使う必要があるBlobコンテナーの名前を入力します。

このコンポーネントをAzure Data Lake Storage Gen1で使う場合:

[Data Lake Storage account] (Data Lake Storageアカウント)	アクセスする必要のあるData Lake Storageアカウントの名前を入力します。このアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。
[Client ID] (クライアントID)と[Client key] (クライアントキー)	[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。
[Token endpoint] (トークンエンドポイント)	[Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。

[Data Lake Storage account] (Data Lake Storageアカウント)

アクセスする必要のあるData Lake Storageアカウントの名前を入力します。このアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。

[Client ID] (クライアントID)と[Client key] (クライアントキー)

[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。

使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。

[Token endpoint] (トークンエンドポイント)

[Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。

このコンポーネントをAzure Data Lake Storage Gen2で使う場合:

[Authentication mode] (認証モード)	Azure ADLS Gen2ストレージに接続するよう、認証タイプを設定するために使われます。次のオプションが提供されます。 [Secret Key] (シークレットキー): このオプションを選択すると、Azureストレージアカウントのファイルシステムのキーを使ってAzure ADLS Gen2にアクセスできます。 [Azure Active Directory]: このオプションを選択すると、Azure Active Directory (Azure AD)の認証情報を使ってAzure ADLS Gen2ストレージにアクセスできます。
[Data Lake Storage account] (Data Lake Storageアカウント)	アクセスする必要のあるData Lake Storageアカウントの名前を入力します。このアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。
[Application ID] (アプリケーションID)と[Directory ID] (ディレクトリーID)	[Application ID] (アプリケーションID)フィールドでアプリケーション(クライアント)IDを、[Directory ID] (ディレクトリーID)フィールドでディレクトリー(テナント)IDをそれぞれコピーして貼り付けます。この2つのIDは、Azureポータルの[App registrations] (アプリの登録)ページでアクセス可能な[Overview] (概要)タブから取得できます。これらのフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Azure Active Directory]が選択されている場合のみ利用できます。
[Client Key] (クライアントキー)	[Client key] (クライアントキー)フィールドには、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用するアプリケーションの登録時に生成された認証キーを入力します。使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。このフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Azure Active Directory]が選択されている場合のみ利用できます。
[Account key] (アカウントキー)	Azureストレージアカウントのファイルシステムにアクセスするためのアカウントキーを入力します。このフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Secret Key] (シークレットキー)が選択されている場合のみ利用できます。
[File system] (ファイルシステム)	このフィールドには、使用するADLS Gen2ファイルシステムの名前を入力します。 ADLS Gen2ファイルシステムは階層ストラクチャーになっているため、HDFSと互換性があります。
[Create remote file system during initialization] (初期化中にファイルシステムを作成)	使用するADLS Gen2ファイルシステムが存在しない場合は、このチェックボックスをオンにすれば状況に応じて作成できます。

グローバル変数

グローバル変数	ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。変数の詳細は、コンテキストと変数を使用をご覧ください。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール	サブジョブにあるtAzureFSConfigurationコンポーネントを複数使って、ジョブ全体で複数のAzureファイルシステム(ADLS Gen2のみ)に接続を設定できます。他のAzureファイルシステム(ADLS Gen1およびAzure Blob Storage)では、このコンポーネントはサブジョブでスタンドアロンで使われます。 tAzureFSConfigurationコンポーネントを複数使用している場合は、全Azure ADLS Gen2ストレージの`createRemoteFileSystemDuringInitialization`プロパティに同じ値を設定してください。 tAzureFSConfigurationは、Google Cloud Dataproc V1.1へのSSLアクセスをサポートしていません。 Sparkの出力ファイルをAzure Data Lake Storage上で1つのファイルにマージすることはできません。この機能がAzure Data Lake Storageでサポートされていないためです。また、この機能は最新のHadoop APIで非推奨となっています。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。この接続は、ジョブごとに有効になります。

使用ルール

サブジョブにあるtAzureFSConfigurationコンポーネントを複数使って、ジョブ全体で複数のAzureファイルシステム(ADLS Gen2のみ)に接続を設定できます。他のAzureファイルシステム(ADLS Gen1およびAzure Blob Storage)では、このコンポーネントはサブジョブでスタンドアロンで使われます。

tAzureFSConfigurationコンポーネントを複数使用している場合は、全Azure ADLS Gen2ストレージのcreateRemoteFileSystemDuringInitializationプロパティに同じ値を設定してください。

tAzureFSConfigurationは、Google Cloud Dataproc V1.1へのSSLアクセスをサポートしていません。

Sparkの出力ファイルをAzure Data Lake Storage上で1つのファイルにマージすることはできません。この機能がAzure Data Lake Storageでサポートされていないためです。また、この機能は最新のHadoop APIで非推奨となっています。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。

この接続は、ジョブごとに有効になります。

Apache Spark BatchのtAzureFSConfigurationプロパティ - Cloud - 8.0

Azure Storage Blob

基本設定

グローバル変数

使用方法