Amazon S3からのデータセットの追加 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Data Preparationはさまざまなデータソースに接続して新しいデータセットを作成できます。

この例では、Amazon S3に保存されている顧客データを準備するという想定で説明します。Amazon S3接続情報をTalend Data Preparationインターフェイスで直接入力し、このデータから新しいデータセットを作成します。

手順

  1. Talend Data Preparationホームページの[Datasets] (データセット)ビューで、[Add Dataset] (データセットの追加)ボタンのとなりの白い矢印をクリックします。
  2. [Amazon S3]を選択します。

    [Add an Amazon S3 dataset] (Amazon S3データセットを追加)フォームが開きます。

  3. [Dataset Name] (データセット名)フィールドに、データセットに付ける名前を入力します。たとえば、Amazon S3 datasetなどにします。
  4. [Specify AWS credentials] (AWS資格情報を指定する)チェックボックスを選択します。

    この例ではチェックボックスを選択しますが、Amazonでは、[Using the Default Credential Provider Chain]ページに記載の方法のいずれかを使って資格情報を指定することを推奨しています。毎回AWS資格情報を手動で入力する必要はなく、チェックボックスを未選択のままにすることができます。

    このページの[Amazon ECS container credentials]の方法はTalend Data Preparationではサポートされていません。

    この手順は、ビッグデータでTalend Data Preparationを使用している場合のSpark Job Serverと同様に、Components Catalogサーバー上で完了する必要があります。

  5. [Test connection] (接続のテスト)をクリックします。

    接続が確立されると、フォームの2つ目の部分が表示されるので、インポートするオブジェクトを選択できます。接続が確立されなかった場合は、その理由の詳細を示すエラーメッセージが表示されます。

  6. [Bucket] (バケット)ドロップダウンリストから、Amazon S3のデータの場所を選択します。
  7. [Object] (オブジェクト)フィールドに、バケットからインポートするデータセットへのパスを入力します。
  8. 対応するドロップダウンリストでデータの形式、レコード区切り記号、フィールド区切り記号を選択します。
  9. フォームの末尾にある[Add dataset] (データセットを追加)ボタンをクリックします。

タスクの結果

インポートが完了すると、Amazon S3から抽出したデータがグリッド内に開かれ、プレパレーションの作業を通常どおりに開始できます。

データはAmazon S3に保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

データセットはホームページの[Datasets] (データセット)ビュー内のリストに追加されます。