応用の操作: データセットのS3へのアップロード - Cloud

Talend Cloud Pipeline Designer入門ガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発 > パイプラインのデザイン
デプロイメント > デプロイ中 > パイプラインの実行
EnrichPlatform
Talend Pipeline Designer

Amazon S3アカウントをお持ちの場合は、続けて操作を行うことができます。S3にファイルをアップロードしたら、このS3バケットへの接続を作成し、Talend Cloud Pipeline Designerからデータセットを取得できます。

その後、Amazon S3でホスティングされているデータセットを使用してユースケースを再現できます。

始める前に

  • ユーザーまたはユーザーグループにAmazon S3リソースにアクセスするための適切なアクセス権限が付与されていることを確認します。

    アクセス権限がない場合は、以下のオプションのいずれかを試すことができます。
    1. (推奨) Amazonアカウントを管理する管理者に問い合わせ、ユーザーに正しいS3アクセス権限を付与してもらいます。
    2. 権限が付与されている場合は、Amazonのドキュメンテーションに従ってアクセスポリシーを設定してください。
    3. (非推奨) IAMコンソールを使用して、AmazonS3FullAccessポリシーをグループ/ユーザーにアタッチします。これにより、特定のバケットに対して無制限にS3リソースを読み書きできるようになります。ただし、これは緊急処置であり、Talendでは推奨されていません。
    注: 十分なアクセス権限のないS3リソースにアクセスしようとしたときに表示されるデフォルトエラーは、[Bad Gateway] (不正ゲートウェイ)になります。
  • このページの左側パネルにある[Downloads] (ダウンロード)タブからfinancial_transactions.avroファイルを取得します。

手順

  1. Amazon S3のドキュメンテーションの説明に従って、financial_transactions.avroファイルをAmazon S3バケットにアップロードします。
  2. Talend Cloud Pipeline Designerのホームページで[CONNECTIONS] (接続) > [ADD CONNECTION] (接続の追加)をクリックします。
  3. パネルが開いたら、接続に名前(たとえばs3 connection)を付けます。
  4. [Engine] (エンジン)リストで自分のRemote Engine Gen2を選択します。
    注: Remote Engine Gen2を使用する場合は、Talend Cloud Management Consoleから作成する必要があります。存在するものの、稼働中を意味する[AVAILABLE] (利用可能)ステータスでない場合は、リストで[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  5. [Connection type] (接続タイプ)リストで[S3 connection] (S3接続)を選択します。
  6. 接続を確認し、[ADD DATASETS] (データセットの追加)をクリックして、以前S3バケットにアップロードしたファイルをポイントします。
  7. [ADD A NEW DATASET] (新しいデータセットの追加)パネルで、S3バケットの接続情報を入力します。
    1. たとえば、データセットの名前はfinancial data on S3のようにします。
    2. 必要に応じて説明を追加します。
    3. [Bucket] (バケット)フィールドで、S3バケットの名前を選択するか入力します。
    4. [Path] (パス)フィールドに、S3バケットに以前にアップロードしたfinancial_transactions.avroファイルのパスを入力します。
    5. フォーマットリストで、[AUTO DETECT] (自動検出)をクリックしてフォーマットを自動的に検出し、リストでAvroを選択します。
  8. [VIEW SAMPLE] (サンプルの表示)をクリックして、データが有効でプレビュー可能なことを確認します。
  9. [VALIDATE] (検証)をクリックしてデータセットを保存します。

タスクの結果

[DATASETS] (データセット)ページで、新しいデータセットがリストに追加され、以前に作成したユースケースを再現できます。