Amazon S3でリードを処理してMySQLにロード - Cloud

Talend Cloudアプリコネクターガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
管理と監視 > 接続の管理
Last publication date
2024-03-21

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

始める前に

  • このシナリオを再現する場合は、s3_mysql-lead_campaign.zipファイルをダウンロードして抽出します。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    S3
  3. [Engine] (エンジン)リストでエンジンを選択します。
    注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは、[S3 connection] (S3接続)を選択します。
  5. Amazon S3のプロパティの説明に従って、S3アカウントにアクセスするための接続のプロパティを入力し、接続にチェックを入れて[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットにlead generation campaignという名前を付けます。
  7. 接続リストでS3を選択します。
  8. [Autodetect] (自動検出)をクリックするか、必要なプロパティ(CSV形式、スペースフィールド区切り、ヘッダーなし)を手動で入力してS3バケットにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
  9. [Validate] (検証)をクリックしてデータセットを保存します。
  10. 同じようにして、パイプライン内でデスティネーションとして使用されるMySQL接続とMySQLテーブルデータセットを追加します。MySQLのプロパティの説明に従って、接続のプロパティを入力します。
  11. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  12. パイプラインに意味のある名前を付けます。

    From S3 to MySQL - Process leads
  13. [ADD SOURCE] (ソースを追加)をクリックし、パネルが開いたら、ソースデータセット、[lead generation campaign] (リード生成キャンペーン)を選択します。
  14. をクリックしてFilterプロセッサーをパイプラインに追加し、ユーザーデータをフィルタリングして意味がある名前を付けられるようにします。設定パネルが開きます。
  15. プロセッサーに意味のある名前を付けます。

    select countries and revenues
  16. [Configuration] (設定)タブの[Simple] (シンプル)ビューで、アイコンをクリックして、[Select fields] (フィールドを選択)ウィンドウを開きます。
    1. 顧客の国に対応するフィールドを選択したい場合は、[.field2]を選択し、アイコンをクリックして名前をcountryに変更します。
    2. 顧客の収入に対応するフィールドを選択したい場合は、[.field7]を選択し、アイコンをクリックして名前をrevenueに変更します。
  17. [Save] (保存)をクリックして設定を保存します。
  18. をクリックし、パイプラインにFilterプロセッサーを追加し、レコードをフィルタリングしてマーケティングキャンペーン中に収入を入力した顧客のみが残るようにします。設定パネルが開きます。
  19. プロセッサーに意味のある名前を付けます。

    remove empty revenues
  20. [Filters] (フィルター)エリアで次の操作を行います。
    1. 顧客の収入を処理する場合は、[Input] (入力)リストで.revenueを選択します。
    2. レコードのフィルタリングで関数を適用しない場合は、[Apply a function first] (最初に関数を適用)リストでNoneを選択します。
    3. 収入を入力した顧客をフィルタリングする場合は、[Operator] (オペレーター)リストで!=を選択し、[Value] (値)フィールドにN/Aと入力します。
  21. をクリックしてType Converterプロセッサーをパイプラインに追加し、収入のフィールドの形式(文字列形式)を変換できるようにします。設定パネルが開きます。
  22. プロセッサーに意味のある名前を付けます。

    convert revenue formats
  23. 収入情報が保持されているString型のフィールドをDouble型のフィールドに変換したい場合は、[Converters] (コンバーター)エリアで、[Field path] (フィールドパス)リストの[.revenue]および[Output type] (出力タイプ)リストの[Double] (倍数)を選択します。
  24. [Save] (保存)をクリックして設定を保存します。
  25. をクリックして、パイプラインにAggregateプロセッサーを追加します。設定パネルが開きます。
  26. プロセッサーに意味のある名前を付けます。

    count average revenue by country
  27. [Group by] (グループ基準)エリアで、集計セットに使いたいフィールド(ここでは[.country])を選択します。
  28. [Operations] (操作)エリアで次の操作を行います。
    1. [Field path] (フィールドパス)リストで.revenueを、[Operation] (操作)リストでAverageをそれぞれ選択します。
    2. 生成されたフィールド([Output field name] (出力フィールド名)に名前(average_revenueなど)を付けます。
  29. [Save] (保存)をクリックして設定を保存します。
  30. オプションとして、Aggregateプロセッサーを表示すると、国ごとの平均収入を集計する操作の後に計算データをプレビューできます。
  31. パイプラインの[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックしてパネルを開くと、出力データ(MySQL)を保持するデータセットを選択できます。
  32. デスティネーションに意味のある名前(load in MySQL tableなど)を付けます。
  33. [Save] (保存)をクリックして設定を保存します。
  34. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  35. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、S3に保管されたリード情報はクリーンアップされており、収入は国ごとに集計されて、出力フローは定義したMySQLターゲットテーブルに送信されます。