Apache Spark BatchのtS3Configurationプロパティ - 7.2

Amazon S3

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon S3
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon S3
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon S3

これらのプロパティは、Spark Batchのジョブフレームワークで実行されているtS3Configurationを設定するために使われます。

Spark BatchtS3Configurationコンポーネントは、ストレージファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで利用できます。

基本設定

[Access Key] (アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、[Getting Your AWS Access Keys] (AWSアクセスキーの取得)をご覧ください。

[Access Secret] (アクセスシークレット)

シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横の[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Bucket name] (バケット名)

使用するバケットの名前とそのフォルダーを入力します。バケット名とフォルダー名はスラッシュ(/)で区切ってください。

[Temp folder] (一時フォルダー)

S3の一時フォルダーの場所を入力します。このフォルダーは、実行時にまだなかった場合は自動的に作成されます。

[Use s3a filesystem] (s3aファイルシステムを使用)

tS3Configurationによってデフォルトで使用されるファイルシステム、S3Nの代わりにS3Aファイルシステムを使用する場合は、このチェックボックスをオンにします。

この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
  • Amazon EMR V4.5以降

  • MapR V5.0以降

  • Hortonworks Data Platform V2.4以降

  • Cloudera V5.8以降(Cloudera V5.8ではSparkバージョン2.0を使用してください)

  • Cloudera Altus
[Inherit credentials from AWS] (AWSから認証情報を継承) S3AファイルシステムをEMRで使用している場合、このチェックボックスをオンにすると、EMRインスタンスメタデータからAWSセキュリティ認証情報を取得できます。このオプションを使用するには、Amazon EMRクラスターを開始する必要があり、このクラスターでジョブを実行する必要があります。詳細は、 Using an IAM Role to Grant Permissions to Applications Running on Amazon EC2 Instancesをご覧ください。

このオプションを使用すると、ジョブにAWSキーを配置せずにジョブを開発できるため、組織のセキュリティポリシーに簡単に準拠できます。

[Use SSE-KMS encryption] (SSE-KMS 暗号化を使用する) S3AファイルシステムをEMRで使用している場合、このチェックボックスをオンにすると、AWSで有効になっているSSE-KMS暗号化サービスを使用して、暗号化されたデータの読み取りまたは書き込みをS3で行うことができます。

EMR側では、デフォルトの暗号化機能を伴うSSE-KMSサービスが有効になっており、暗号化用に顧客管理CMKが指定されていることが必要です。

サーバー側の暗号化は、AWSのドキュメンテーションでProtecting Data Using Server-Side Encryptionをご覧ください。

Amazon S3バケットでデフォルトの暗号化機能を有効にする詳しい方法は、AWSのドキュメンテーションでDefault encryptionをご覧ください。

[Assume Role] (ロールを引き受け)

S3Aファイルシステムを使用している場合は、このチェックボックスをオンにすると、ジョブにロールおよびこのロールに関連付けられた権限を担わせることができます。

このロールに関連付けられている信頼ポリシーによって、自分のユーザーアカウントにそのロールへのアクセスが付与されていることをご確認ください。不明であれば、そのロールの所有者かAWS管理者にお問い合わせください。

このチェックボックスをオンにした後、このロールに対して定義されているAWSシステムの管理者のパラメーターを指定します。
  • [Role ARN] (ロールARN): 引き受けるロールのARN (Amazonリソース名)。このARN名は、AWSポータルで使用するロールの[Summary] (概要)ページで見つかります。このロールARNの形式は、たとえばam:aws:iam::[aws_account_number]:role/[role_name]となります。

  • [Role session name] (ロールセッション名): 引き受けたロールセッションの一意識別に使用する名前を入力します。この名前には英字(大文字と小文字の両方)と数字を利用できますが、スペースを含めることはできません。また、アンダースコア( _ )の他、= , . @ - も利用できます。

  • [Session duration (minutes)] (セッション処理時間(分)): 引き受けたロールセッションをアクティブにする期間(分)。この期間をAWS管理者が設定した最大期間より長くすることはできません。

[External ID] (外部ID)パラメーターは、AWS管理者やそのロールの所有者がロールの信頼ポリシー設定時に外部IDを定義した場合のみ必要です。

加えて、AWS管理者が応答パフォーマンスを向上させるため特定のリージョンのSTSエンドポイントを有効にしている場合、[Advanced settings] (高度な設定)タブの[Set STS region](STSリージョンの設定)チェックボックスまたは[Set STS endpoint] (STSエンドポイントの設定)チェックボックスを使用します。

このチェックボックスは、Talendがサポートする次のディストリビューションでのみ利用できます:
  • CDH 5.10以降(最新Clouderaディストリビューションのダイナミックサポートを含む)

  • HDP 2.5以降

このチェックボックスはLocal SparkモードでSpark V1.6以降を使用している場合も[Spark configuration] (Spark設定)タブで利用できます。

[Set region] (リージョンの設定)

このチェックボックスをオンにして、接続先のリージョンを選択します。

この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
  • Amazon EMR V4.5以降

  • MapR V5.0以降

  • Hortonworks Data Platform V2.4以降

  • Cloudera V5.8以降(Cloudera V5.8ではSparkバージョン2.0を使用してください)

  • Cloudera Altus

[Set endpoint] (エンドポイントの設定)

このチェックボックスをオンにすると、[Endpoint] (エンドポイント)フィールドが表示されるので、使用する必要のあるAmazonのリージョンのエンドポイントを入力します。利用可能なエンドポイントのリストは、領域およびエンドポイントをご覧ください。

このチェックボックスを解除すると、エンドポイントは、Hadoopディストリビューションによって定義されたデフォルトのエンドポイントになりますが、[Set region] (リージョンを設定)を選択すると、このチェックボックスは利用できず、その場合は[Set region] (リージョンを設定)リストで選択した値が使用されます。

この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
  • Amazon EMR V4.5以降

  • MapR V5.0以降

  • Hortonworks Data Platform V2.4以降

  • Cloudera V5.8以降(Cloudera V5.8ではSparkバージョン2.0を使用してください)

  • Cloudera Altus

詳細設定

[Set STS region] (STSリージョンの設定)および[Set STS endpoint] (STSエンドポイントの設定)

応答パフォーマンスを向上させるため使用するリージョンのSTSエンドポイントをAWS管理者が有効にしている場合は、[Set STS region] (STSリージョンの設定)チェックボックスをオンにし、使用するリージョナル エンドポイントを選択します。

使用するリージョンのエンドポイントがこのリージョナルエンドポイントリストに存在しない場合、[Set STS region] (STSリージョンの設定)チェックボックスをオフにし、[Set STS endpoint] (STSエンドポイントの設定)チェックボックスをオンにして使用するエンドポイントを入力します。

このサービスを使用すると、認証したAWSユーザーに対して、一時的な制限付き特権の認証情報を要求できます。したがって、使用するAWSアカウントを認証するために、アクセスキーとシークレットキーを提供する必要があります。

使用できるSTSエンドポイントの一覧の詳細は、[AWS Security Token Service] (AWSセキュリティトークンサービス)をご覧ください。STS一時認証情報の詳細の詳細は、[Temporary Security Credentials] (一時的なセキュリティ認証情報)をご覧ください。どちらの記事もAWSのドキュメンテーションからのものです。

これらのチェックボックスは[Basic settings] (基本設定)タブの[Assume Role] (ロールを引き受け)チェックボックスをオンにしている場合に限り利用できます。

使用方法

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

設定がランタイム時にジョブ全体で使用されるように、tS3Configuration、および実行するサブジョブに関わるファイルシステムを同じジョブにドロップする必要があります。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、https://help.talend.com/access/sources/content/topic?pageid=thdfsconfiguration&mapid=hdfs&afs:lang=ja&EnrichVersion=7.2を使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationtS3Configurationなど、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

制限事項

ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Studioの Integration パースペクティブの[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールのインストールをご覧ください。外部モジュールをインストールする方法の詳細は、Talend Help Center (https://help.talend.com)をご覧ください