FTPサーバーにあるファイルの処理と移動 - Cloud

Talend Cloudアプリコネクターガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
管理と監視 > 接続の管理
Last publication date
2024-03-21

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    FTP
  3. [Engine] (エンジン)リストでエンジンを選択します。
    注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは[FTP]を選択します。
  5. FTPのプロパティの説明に従って、FTPサーバーにアクセスするための接続のプロパティを入力し、目的の接続にチェックを入れ、[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、必要なプロパティを入力し、ファイルがあるFTPディレクトリーをポイントして、[VIEW SAMPLE] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示させます。
    ここで取得するファイルは、Talend/Filesフォルダー内にあるボルチモアのレストランをリストアップしたCSVファイルです。
  7. [Validate] (検証)をクリックしてデータセットを保存します。
  8. 同じFTP接続で、パイプライン内でデスティネーションとして使うデータセットを追加します。ここではTalend/Outフォルダーをポイントしています。
  9. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  10. パイプラインに意味のある名前を付けます。

    FTPサーバーにあるファイルの処理と移動
  11. [ADD SOURCE] (ソースを追加)をクリックし、パネルが開いたら、restaurant on FTP dirというソースデータセットを選択します。
  12. をクリックし、パイプラインにプロセッサーを追加します。たとえば全レストランの住所をリスト化する場合は、Aggregateプロセッサーを使います。
  13. プロセッサーを設定します。[Operations] (操作)エリアで次の操作を行います。
    1. [Field path] (フィールドパス)リストで.locationを選択します。
    2. [Operation] (操作)リストでListを選択します。
    3. 出力フィールド名の名前(ここではaddress)を入力します。
    4. 設定を保存します。

    レストランの住所が1つのレコードに集約されます。

  14. をクリックしてパイプラインにNormalizeプロセッサーを追加し、アドレスレコードがフラット化され、どのエントリーも個別のレコードに分割されるようにします。
  15. プロセッサーを設定します。[Operations] (操作)エリアで次の操作を行います。
    1. [Field path to normalize] (正規化するフィールドパス)リストで.addressを選択します。
    2. [Is list] (リスト)オプションを有効にします。
    3. 設定を保存します。
  16. パイプラインで[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックしてパネルを開き、自分の出力ファイルのアップロード先となるFTP出力ディレクトリーを選択します。
  17. デスティネーションに、意味のある名前(addresses on FTP out dirなど)を付けます。
  18. デスティネーションの[Configuration] (運用設定)タブで、アップロードするファイルがサイズ制限を超えていないことを確認します。
  19. [Save] (保存)をクリックして設定を保存します。
  20. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  21. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、FTPディレクトリーに保存されていたレストランデータは処理され、出力ファイルは指定のFTPターゲットディレクトリーにアップロードされます。
  • 新たにアップロードされたファイルがあるFTPターゲットディレクトリー:

  • レストランの住所リストが含まれているCSV出力ファイル: