Apache Spark BatchのtS3Configurationプロパティ - 7.3

Amazon S3

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon S3
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon S3
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon S3
Last publication date
2024-02-22

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtS3Configurationを設定するために使われます。

Spark BatchtS3Configurationコンポーネントは、ストレージファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Access Key] (アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを入力します。アクセスキーとシークレットキーを取得する方法は、http://docs.aws.amazon.com/ses/latest/DeveloperGuide/get-aws-keys.htmlGetting Your AWS Access Keysをご覧ください。

[Access Secret] (アクセスシークレット)

シークレットキーを入力します。シークレットキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、OKをクリックして設定を保存します。

[Use EMRFS consistent view] (EMRFS整合性ビューの使用) このチェックボックスをオンにすると、EMRファイルシステム(EMRFS)の整合性ビューを利用できます。このオプションによってEMRクラスターは、EMRFSによって書き込まれたりEMRFSと同期したAmazon S3オブジェクトのリストや書き込み後の読み取り整合性をチェックできるようになります。
注: 整合性のないエラーが発生することがあるため、単一のバケットでは整合性ビューを切り替えないようにしてください。この問題が発生した場合は、EMRFS CLIでsyncコマンドを使えば不整合性を修正できます。詳細は、[EMRFS CLI Reference] (EMRFS CLI リファレンス)をご覧ください。

この機能はAmazon EMR 5.29ディストリビューションの使用時に利用できます。

[EMRFS metadata table] (EMRFSメタデータテーブル) 使用するメタデータDynamoDBテーブルの名前を入力します。
注: デフォルトのメタデータテーブル名はEmrFSMetadataです。

このフィールドは、[Use EMRFS consistent view] (EMRFS整合性ビューを使用)チェックボックスをオンにした場合にのみ使用できます。

[Bucket name] (バケット名)

使用するバケットの名前とそのフォルダーを入力します。バケット名とフォルダー名はスラッシュ( / )で区切ってください。

[Temp folder] (一時フォルダー)

S3の一時フォルダーの場所を入力します。このフォルダーは、実行時にまだなかった場合は自動的に作成されます。

[Inherit credentials from AWS] (AWSから認証情報を継承) お使いのIAMロールからAWSセキュリティ認証情報を取得する場合は、このチェックボックスをオンにします。このオプションはAmazon EMRクラスターとDatabricks on AWSクラスターで使用できます。このオプションを使用する場合は、クラスターを開始し、そのクラスターでジョブを実行する必要があります。詳細は、 Using an IAM Role to Grant Permissions to Applications Running on Amazon EC2 Instancesをご覧ください。

このオプションを使用すると、ジョブにAWSキーを配置せずにジョブを開発できるため、組織のセキュリティポリシーに簡単に準拠できます。

[Use SSE-KMS encryption] (SSE-KMS 暗号化を使用する) このチェックボックスをオンにすると、AWSで有効になっているSSE-KMS暗号化サービスを使って、暗号化されたデータの読み取りまたは書き込みをS3で行うことができます。

EMR側では、デフォルトの暗号化機能を伴うSSE-KMSサービスが有効になっており、暗号化用に顧客管理CMKが指定されていることが必要です。

サーバー側の暗号化は、AWSのドキュメンテーションでProtecting Data Using Server-Side Encryptionをご覧ください。

Amazon S3バケットでデフォルトの暗号化機能を有効にする詳しい方法は、AWSドキュメンテーションでデフォルトの暗号化をご覧ください。

これらのプロパティは、Amazon EMRディストリビューションを使用している場合のみ利用できます。

[Bucket encryption] (バケット暗号化)
ドロップダウンリストから、バケットに使ったデフォルト暗号化を選択します。
  • aws:kms: AWS KMS-Managed Keys (SSE-KMS)によるサーバー側の暗号化
  • aes:256: Amazon S3-Managed Keys (SSE-S3)によるサーバー側の暗号化

これらのプロパティは、Amazon EMRディストリビューションを使用している場合のみ利用できます。

[in-transit] (転送中)の暗号化を使用する

転送中のデータの暗号化を有効にするには、このチェックボックスをオンにします。

注: デフォルトでは、輸送中の暗号化が選択されています。このオプションを無効にすると、KMS暗号化EMRクラスターをセットアップする必要はありません。

これらのプロパティは、SSE-KMS暗号化でAmazon EMRディストリビューションを使用している場合のみ利用できます。

[Assume Role] (ロールを引き受け)

このチェックボックスをオンにすると、ジョブにロールおよびこのロールに関連付けられた権限を担わせることができます。

このロールに関連付けられている信頼ポリシーによって、自分のユーザーアカウントにそのロールへのアクセスが付与されていることをご確認ください。不明であれば、そのロールの所有者かAWS管理者にお問い合わせください。

このチェックボックスをオンにした後、このロールに対して定義されているAWSシステムの管理者のパラメーターを指定します。
  • [Role ARN] (ロールARN): 引き受けるロールのARN (Amazonリソース名)。このARN名は、AWSポータルで使用するロールの[Summary] (概要)ページで見つかります。このロールARNの形式は、たとえばam:aws:iam::[aws_account_number]:role/[role_name]となります。

  • [Role session name] (ロールセッション名): 引き受けたロールセッションの一意識別に使用する名前を入力します。この名前には英字(大文字と小文字の両方)と数字を利用できますが、スペースを含めることはできません。また、アンダースコア( _ )の他、= , . @ - も利用できます。

  • [Session duration (minutes)] (セッション処理時間(分)): 引き受けたロールセッションをアクティブにする期間(分)。この期間をAWS管理者が設定した最大期間より長くすることはできません。値を指定しない場合、持続時間は3600秒がデフォルトとなります。

[External ID] (外部ID)パラメーターは、AWS管理者やそのロールの所有者がロールの信頼ポリシー設定時に外部IDを定義した場合のみ必要です。

  • [Policy] (ポリシー): セッションポリシーとして使うIAMポリシーをJSON形式で入力します。セッションポリシーを使ってセッションの権限を制限します。結果として得られるセッションの権限は、そのロールのIDベースのポリシーとセッションポリシーの中間となります。
  • [Policy ARNs] (ポリシーARN): マネージドセッションポリシーとして使うIAMマネージドポリシーのAmazon Resource Names(ARN)を入力します。マネージドセッションポリシーを使ってセッションの権限を制限します。このポリシーはロールと同じアカウントに存在することが必要です。結果として得られるセッションの権限は、そのロールのIDベースのポリシーとセッションポリシーの中間となります。
  • [Serial Number] (シリアル番号): ロールを引き受けた場合、そのロールの信頼ポリシーで多エレメント認証(MFA)が必要になることがあります。その際は、ロールを引き受けるユーザーに関連付けられているハードウェアや仮想MFAデバイスの識別番号を指定する必要があります。
  • [Tags] (タグ): キー-値ペアという形式でセッションタグをリスト表示します。ポリシーでこれらのセッションタグを使えば、リクエストへのアクセスを許可したり拒否したりできます。
  • [Token Code] (トークンコード): ロールを引き受けた場合、そのロールの信頼ポリシーで多エレメント認証(MFA)が必要になることがあります。その際は、トークンコードを指定する必要があります。このトークンコードは、MFAデバイスによって生成される時間ベースのワンタイムパスワードです。
  • [Transitive Tag Keys] (推移的なタグキー): ロールチェーン内の次のロールに永続化するキー-値ペアの形式でセッションタグをリスト表示します。

加えて、AWS管理者が応答パフォーマンスを向上させるため特定のリージョンのSTSエンドポイントを有効にしている場合、[Advanced settings] (高度な設定)タブの[Set STS region](STSリージョンの設定)チェックボックスまたは[Set STS endpoint] (STSエンドポイントの設定)チェックボックスを使用します。

このチェックボックスは、Talendがサポートする次のディストリビューションでのみ利用できます:
  • CDH 5.10以降(最新Clouderaディストリビューションのダイナミックサポートを含む)

  • HDP 2.5以降

  • EMR 5.15以降

  • CDP Private Cloud Base 7.1

このチェックボックスは、[Local] (ローカル) Sparkモードの[Spark configuration] (Spark設定)タブでSpark V1.6以降を使用している時にも利用できます。

[KMS key id] (KMSキーID)
暗号化に使用する顧客管理CMKのIDを入力します。
注: 次のいずれかの形式を使用できます。
  • arn:aws:kms:region:account-id:key/key-id
  • key-id

[KMS key id] (KMSキーID)フィールドは、[Use SSE-KMS encryption] (SSE-KMS暗号化を使用する)チェックボックスをオンにした場合にのみ使用できます。この機能はAmazon EMR distribution ディストリビューションをSparkとともに使用している時に利用できます。

[Set region] (リージョンの設定)

このチェックボックスをオンにして、接続先のリージョンを選択します。

この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
  • Amazon EMR V4.5~V5.15 EMRはEMRFS V5.29以降を使います

  • MapR V5.0以降

  • Hortonworks Data Platform V2.4以降

  • Cloudera V5.8以降(Cloudera V5.8ではSparkバージョン2.0を使用してください)

  • Cloudera Altus

[Set endpoint] (エンドポイントの設定)

このチェックボックスをオンにすると、[Endpoint] (エンドポイント)フィールドが表示されるので、使用する必要のあるAmazonのリージョンのエンドポイントを入力します。利用可能なエンドポイントのリストは、領域およびエンドポイントをご覧ください。

このチェックボックスを解除すると、エンドポイントは、Hadoopディストリビューションによって定義されたデフォルトのエンドポイントになりますが、[Set region] (リージョンを設定)を選択すると、このチェックボックスは利用できず、その場合は[Set region] (リージョンを設定)リストで選択した値が使用されます。

この機能は、次のディストリビューションのいずれかをSparkと使用している場合に利用できます。
  • Amazon EMR V4.5~V5.15 EMRはEMRFS V5.29以降を使います

  • MapR V5.0以降

  • Hortonworks Data Platform V2.4以降

  • Cloudera V5.8以降(Cloudera V5.8ではSparkバージョン2.0を使用してください)

  • Cloudera Altus

詳細設定

[Set region] (リージョンを設定)[Set endpoint] (エンドポイントを設定)

応答パフォーマンスを向上させるため使用するリージョンのSTSエンドポイントをAWS管理者が有効にしている場合は、[Set region] (リージョンを設定)チェックボックスを選択した後、使用するリージョナル エンドポイントを選択します。

このリージョナルエンドポイントリストで使いたいエンドポイントが利用できない場合は、[Set region] (リージョンを設定)チェックボックスを消去した後、[Set endpoint] (エンドポイントを設定)チェックボックスを選択して、使用されるエンドポイントを入力します。

このサービスを利用すれば、AWSユーザー認証のため、一時的かつ権限が限定された認証情報を要求できます。そのため、使用するAWSアカウントを認証する場合は引き続きアクセスキーとシークレットキーを入力する必要があります。

使用できる STSエンドポイントの一覧の詳細は、[AWS Security Token Service] (AWSセキュリティトークンサービス)をご覧ください。STS一時認証情報の詳細の詳細は、[Temporary Security Credentials] (一時的なセキュリティ認証情報)をご覧ください。両方の記事はAWSドキュメントからのものです。

使用方法

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

ジョブごとに複数のtS3Configurationコンポーネントを使用することができます。

設定がランタイムにジョブ全体で使われるように、tS3Configurationと共に、実行するファイルシステム関連のサブジョブを同じジョブにドロップする必要があります。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

制限事項

ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Studioの Integration パースペクティブの[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールのインストールをご覧ください。外部モジュールをインストールする方法は、Talend Help Center (https://help.talend.com)をご覧ください