Apache Spark BatchのtAzureFSConfigurationプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtAzureFSConfigurationを設定するために使われます。
Spark BatchのtAzureFSConfigurationコンポーネントは、ストレージファミリーに属しています。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。
基本設定
[Azure FileSystem] (Azureファイルシステム) |
使用するファイルシステムを選択します。定義するパラメーターが表示されます。 このコンポーネントは、実際のユーザーデータまたはビジネスデータをData Lake Storageシステムに保存するように設計されており、HDInsightで プライマリストレージとして定義されているData Lake Storageとは互換性がありません。このため、このコンポーネントをHDInsightと共に使用している場合は、HDInsightの起動時にプライマリストレージに必ずBlobストレージを設定し、Data Lake Storageは設定しないでください。 |
このコンポーネントをAzure Blob Storageで使う場合:
[Blob storage account] (Blobストレージアカウント) |
アクセスする必要のあるストレージアカウントの名前を入力します。ストレージアカウント名は、使用するMicrosoft Azure Storageシステムのストレージアカウントダッシュボード内にあります。このストレージアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。 |
[Account key] (アカウントキー) |
アクセスする必要のあるストレージアカウントに関連付けられたキーを入力します。どのアカウントでも利用できるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。ドロップダウンリストから、Azure Storageへの接続を設定するために接続の詳細を使用するコンポーネントを選択します。 |
[Container] (コンテナー) |
使う必要があるBlobコンテナーの名前を入力します。 |
このコンポーネントをAzure Data Lake Storage Gen1で使う場合:
[Data Lake Storage account] (Data Lake Storageアカウント) |
アクセスする必要のあるData Lake Storageアカウントの名前を入力します。このアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。 |
[Client ID] (クライアントID)と[Client key] (クライアントキー) |
[Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。 使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。 |
[Token endpoint] (トークンエンドポイント) |
[Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。 |
このコンポーネントをAzure Data Lake Storage Gen2で使う場合:
[Authentication mode] (認証モード) |
Azure ADLS Gen2ストレージに接続するよう、認証タイプを設定するために使われます。次のオプションが提供されます。
|
[Data Lake Storage account] (Data Lake Storageアカウント) |
アクセスする必要のあるData Lake Storageアカウントの名前を入力します。このアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。 |
[Application ID] (アプリケーションID)と[Directory ID] (ディレクトリーID) |
[Application ID] (アプリケーションID)フィールドでアプリケーション(クライアント)IDを、[Directory ID] (ディレクトリーID)フィールドでディレクトリー(テナント)IDをそれぞれコピーして貼り付けます。この2つのIDは、Azureポータルの[App registrations] (アプリの登録)ページでアクセス可能な[Overview] (概要)タブから取得できます。 これらのフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Azure Active Directory]が選択されている場合のみ利用できます。 |
[Client Key] (クライアントキー) |
[Client key] (クライアントキー)フィールドには、現在開発中のジョブがAzure Data Lake Storageへのアクセスに使用するアプリケーションの登録時に生成された認証キーを入力します。 使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。 このフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Azure Active Directory]が選択されている場合のみ利用できます。 |
[Account key] (アカウントキー) | Azureストレージアカウントのファイルシステムにアクセスするためのアカウントキーを入力します。 このフィールドは、[Authentication mode] (認証モード)ドロップダウンリストから、[Secret Key] (シークレットキー)が選択されている場合のみ利用できます。 |
[File system] (ファイルシステム) |
このフィールドには、使用するADLS Gen2ファイルシステムの名前を入力します。 ADLS Gen2ファイルシステムは階層ストラクチャーになっているため、HDFSと互換性があります。 |
[Create remote file system during initialization] (初期化中にファイルシステムを作成) | 使用するADLS Gen2ファイルシステムが存在しない場合は、このチェックボックスをオンにすれば状況に応じて作成できます。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。 変数の詳細は、Talend Studioユーザーガイドをご覧ください。 |
使用方法
使用ルール |
このコンポーネントは、サブジョブでスタンドアロンとして使い、ジョブ全体のAzureファイルシステムへの接続設定を提供します。 ただし、ジョブあたり1つのtAzureFSConfigurationコンポーネントのみが許可されます。 tAzureFSConfigurationは、Google Cloud Dataproc V1.1へのSSLアクセスをサポートしていません。 Sparkの出力ファイルをAzure Data Lake Storage上で1つのファイルにマージすることはできません。この機能がAzure Data Lake Storageでサポートされていないためです。また、この機能は最新のHadoop APIで非推奨となっています。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |