Google Cloud Storageに保存されている統計を処理してデータをAmazon S3にアップロード - Cloud

Talend Cloudアプリコネクターガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
管理と監視 > 接続の管理
Last publication date
2024-03-21

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

始める前に

  • このシナリオを再現する場合は、gcstorage_s3_nyc_stats.xlsxファイルをダウンロードします。このファイルはニューヨーク市のオープンデータセットであるnyc-park-crime-stats-q4-2019.xlsxから抽出されたもので、誰でも利用できるように公開されています。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    Google Cloud Storage
  3. [Engine] (エンジン)リストでエンジンを選択します。
    注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは、Google Cloud Storageを選択します。
  5. Google Cloud Storageのプロパティの説明に従って、Google CloudアカウントにアクセスするためのJSON認証情報を入力し、接続にチェックを入れて[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに NYC park crime stats crimeという名前を付けます。
  7. 必要なプロパティ(バケット名、ファイル名、形式など)を入力してGoogle Cloud Storageバケットにあるファイルにアクセスし、[View sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
  8. [Validate] (検証)をクリックしてデータセットを保存します。
  9. 同じようにして、パイプライン内でデスティネーションとして使用されるS3接続とデータセットを追加します。
  10. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  11. [ADD SOURCE] (ソースを追加)をクリックすると、ソースデータを選択できるパネルが開きます。ここでは、Google Cloud Storageバケットに保存されている、ニューヨークパークにおける犯罪のパブリックデータセットを選択します。
  12. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  13. をクリックして、パイプラインにJoinプロセッサーを追加します。設定パネルが開きます。
  14. プロセッサーに意味のある名前を付けます。

    calculate acre square root
  15. プロセッサーを設定します。
    1. SIZE__ACRES_フィールドの平方根を計算する場合は、[Function name] (機能名)リストでSquare rootを選択します。
    2. [Fields to process] (処理するフィールド)リストで.SIZE__ACRES_を選択します。
    3. [Save] (保存)をクリックして設定を保存します。
      オプションとして、プロセッサーのプレビューに注目し、計算操作後のデータを表示させます。
  16. をクリックして、パイプラインにFilterプロセッサーを追加します。設定パネルが開きます。
  17. プロセッサーに意味のある名前を付けます。

    filter on robberies
  18. プロセッサーを設定します。
    1. データセットにリスト表示されている犯罪のうち強盗カテゴリーのみが保持されるよう、新しいエレメントを追加し、[Input] (入力)リストで.ROBBERYを選択します。
    2. [Optionally select a function to apply] (適用する機能をオプションとして選択)リストで[None] (なし)を選択します。
    3. [Operator] (オペレーター)リストで>=を選択します。
    4. 強盗事件が少なくとも1つ含まれているデータをフィルタリングする場合は、[Value] (値)フィールドに1と入力します。
    5. [Save] (保存)をクリックして設定を保存します。
  19. オプションとして、Filterプロセッサーのプレビューを表示し、フィルタリング操作後のデータサンプルを確認します。

  20. [ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保存するS3データセットを選択します。
    必要であれば名前を変更します。
  21. デスティネーションの[Configuration] (設定)タブで[Overwrite] (上書き)オプションを有効にし、処理済みデータが含まれるファイルでS3にある既存のファイルを上書きした後、[Save] (保存)をクリックして設定が保存されるようにします。
  22. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  23. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、出力フローは指定したAmazon S3バケットに送信されます。
出力ファイルをダウンロードすると、犯罪データが処理され、強盗事件が分離されていることがわかります。