Amazon S3のTalend Cloud Management Consoleとの使用
Amazon S3
Amazon Simple Storage Service (S3) は、インターネットのためのストレージです。開発者によるWebスケールのコンピューティングがさらに簡単になるよう設計されています。Amazon S3のシンプルなWebサービスインターフェイスによって、Webのどのような場所からでも、あらゆる量のオブジェクトデータでもいつでも保存および取得できます。これによって開発者は、スケーラビリティ、安定性、スピード、経済性に優れ、Amazonが自社のWebサイトのグローバルネットワークの稼働に使用しているものと同じデータ保存インフラにアクセスできるようになります。このサービスは、スケーリングの恩恵を最大化して開発者へ与えることを目的としています。
Amazon S3はデータをオブジェクト(ファイル)として保存します。これはデータベース保存レイヤーではありません。また、Amazon Glacierはアーカイブ用にAmazon S3データソースインフラを活用します。
Talend StudioでのAmazon S3コンポーネント
Talendでは、コンポーネントパレットで次のようなコンポーネントを利用できます。これらのコンポーネントはAmazon S3が公開している操作について構築されたものです。
画面キャプチャーにあるように、該当する操作は次のとおりです:
- S3バケットとして作成
- S3バケットとして削除
- S3バケットの存在をチェック
- すべてのS3バケットを一覧表示
- ファイルをS3バケットに挿入
- S3バケットからファイルを取得
- S3バケットのファイルを一覧表示
- S3バケットのファイルを削除
下に説明されているように、これらのコンポーネントはTalend Cloud Management Consoleタスク内で使用されます。
Amazon S3接続
次の手順に従い、Talend Studioで接続を作成します。[Context] (コンテキスト)を右クリックし、[Create Context Group] (コンテキストグループの作成)をクリックします。
aws_contextをグループとし、下に示すように3つの変数を作成します:
Talend StudioジョブとTalend Cloud Management Consoleではこのコンテキストグループを使用してください。
S3ネイティブであるこれらの接続を活用するタスクが、Talend Cloud Management Consoleエンジンで実行されます。よってTalend AWS InfrastructureからS3へのアクセスは、アクセスキーとシークレットキーを使う方法が最善です。アクセスキーに関する詳細は、「Managing Access Keys for your AWS Account」(AWSアカウントのアクセスキー管理)を参照してください。
Amazon S3ファイルのリスト
このジョブによって、Amazon S3に保存されているファイルのリストが返されます。次のジョブで示されているように、Amazon S3への接続を作成し、ファイルのリストを取得してフィルターを適宜実行し、各ファイルのファイル名をフローに設定します。
コンテキストパラメーター
S3接続(上記を参照):
- aws_access_key: 使用されるAmazon S3アカウントのアクセスキーIDです。
- aws_access_key: 使用されるAmazon S3アカウントのシークレットアクセスキーIDです。
一般:
- [Bucket] (バケット) ファイルが保存されているソースバケットの名前です。
- フォルダー内にあります。一覧表示されるソースファイルへのパスです。
- [File type] (ファイルタイプ): 一覧表示されるファイルのタイプです。フォルダーからファイルを取得するには、ファイルタイプで
*
という記号を使います。
出力スキーマ:
- ファイルが保存されているバケットの名前です。
- ダウンロードされるファイルへのパスです。
- ダウンロードされるファイルのコンテンツです。
Amazon S3ファイルのアップロード
このジョブによって、ファイルがAmazon S3にアップロードされます。下の画面キャプチャーに示されている設計:
コンテキストパラメーター
[Connection] (接続)
- aws_access_key: 使用されるAmazon S3アカウントのアクセスキーIDです。
- aws_access_key: 使用されるAmazon S3アカウントのシークレットアクセスキーIDです。
一般
- ファイルが保存されるターゲットバケットの名前です。
- アップロードされるターゲットファイルへのパスです。
Amazon S3ファイルの移動
このコンポーネントによってAmazon S3にあるファイルが移動されます。使用するには一部のパラメーターに入力が必要です。
コンテキストパラメーター
[Connection] (接続)
- aws_access_key: 使用されるAmazon S3アカウントのアクセスキーIDです。
- aws_access_key: 使用されるAmazon S3アカウントのシークレットアクセスキーIDです。
一般:
- ファイルが保存されているソースバケットの名前です。
- コピーされるソースファイルへのパスです。
- ターゲットファイルの名前です。
- ターゲットファイルへのパスです。
Amazon S3ファイルのダウンロード
このジョブによって、Amazon S3に保存されているファイルがCloud Engineの一時ディレクトリにダウンロードされます。ファイルは後でタスクによって処理され、一時ディレクトリから削除されます。
コンテキストパラメーター
[Connection] (接続)
- aws_access_key: 使用されるAmazon S3アカウントのアクセスキーIDです。
- aws_access_key: 使用されるAmazon S3アカウントのシークレットアクセスキーIDです。
一般:
- ファイルが保存されているソースバケットの名前です。
- ダウンロードされるソースファイルへのパスです。
出力スキーマ:
- ファイルが保存されているソースバケットの名前です。
- ダウンロードされるソースファイルへのパスです。
- ダウンロードされるファイルのコンテンツです。
Amazon S3ファイルの削除
このジョブによって、Amazon S3に保存されているファイルが削除されます。
コンテキストパラメーター
[Connection] (接続)
- aws_access_key: 使用されるAmazon S3アカウントのアクセスキーIDです。
- aws_access_key: 使用されるAmazon S3アカウントのシークレットアクセスキーIDです。
一般:
- ファイルが保存されているソースバケットの名前です。
- 削除するソースファイルへのパスです。
クラウドでのパブリッシュと実行
- これらのジョブをクラウドにパブリッシュするには、Talend Studioでジョブを右クリックし、[Publish to Cloud] (クラウドにパブリッシュ)を選択します。
- パブリッシュするジョブ用にワークスペースを選択し、[Finish] (完了)をクリックします。
- ジョブがクラウドにパブリッシュされると、ステータスメッセージが表示されます。
- Talend Cloud Management Consoleにログインしてタスクを確認します。
- [Advanced Parameters] (詳細パラメーター)を展開し、コンテキスト値を検証します。
- [Run Now] (今すぐ実行)をクリックしてタスクをテストします。
- [View Logs] (ログの表示)をクリックし、タスクログを検証します。