Google BigQueryテーブルでの犯罪データのフィルタリング - Cloud

Talend Cloudアプリコネクターガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
管理と監視 > 接続の管理
Last publication date
2024-03-21

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

始める前に

  • このシナリオを再現する場合は、誰でも利用できるchicago_crime BigQueryオープンデータセットを使います。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    BigQuery
  3. [Engine] (エンジン)リストでエンジンを選択します。
    注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは、Google BigQueryを選択します。
  5. Google BigQueryのプロパティの説明に従って、BigQueryプロジェクトへのアクセスに使う接続のプロパティ(プロジェクト名やJSON認証情報など)を入力し、目的の接続にチェックを入れて[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに chicago crimeという名前を付けます。
  7. BigQueryバケットにあるファイルへのアクセスに必要なプロパティ(データベース名、テーブル名、クエリーのいずれか)を入力し、[View Sample] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示します。
  8. [Validate] (検証)をクリックしてデータセットを保存します。
  9. 同じ操作で、パイプラインでデスティネーションとして使うBigQueryテーブルデータセットを追加します。
  10. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  11. [ADD SOURCE] (ソースを追加)をクリックすると、ソースデータを選択できるパネルが開きます。ここでは、BigQueryテーブルに保存されている、シカゴにおける犯罪のパブリックデータセットを選択します。
  12. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  13. をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
  14. プロセッサーに意味のある名前を付けます。

    select crime detail fields
  15. [Advanced] (詳細設定)モードの[Selectors] (セレクター)領域で:
    1. case_numberフィールドを選択して名前を変更する場合は、[Input] (入力)リストに.case_number[Output] (出力)リストにcase_idとそれぞれ入力または選択します。
    2. descriptionフィールドを選択して名前を変更する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストに.descriptionと、[Output] (出力)リストにdescとそれぞれ入力または選択します。
    3. primary_typeフィールドを選択する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストに.primary_typeと、[Output] (出力)リストにcrime_typeとそれぞれ入力または選択します。
    4. location_descriptionフィールドを選択して名前を変更する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストに.location_descriptionと、[Output] (出力)リストにlocationとそれぞれ入力または選択します。
  16. [Save] (保存)をクリックして設定を保存します。

    オプションとして、プロセッサーのプレビューに注目し、再構成操作後のデータを表示させます。

  17. をクリックし、パイプラインにFilterプロセッサーを追加します。意味のある名前を付けます。

    filter on 1st degree murders
  18. プロセッサーを設定します。
    1. 顧客のメールのローカル部分とドメイン部分を分割する場合は、[Input] (入力)リストで.crime_typeを選択します。
    2. [Optionally select a function to apply] (適用する機能をオプションとして選択)リストでNONEを選択します。
    3. [Operator] (オペレーター)リストで==を選択します。
    4. 殺人事件をフィルタリングする場合は、[Value] (値)フィールドにHOMICIDEと入力します。
    5. [Save] (保存)をクリックして設定を保存します。
  19. オプションとして、Filterプロセッサーのプレビューを表示し、フィルタリング操作後のデータサンプルを確認します。
  20. [ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保存するデータセットテーブルを選択します。
    必要であれば名前を変更します。
  21. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  22. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、犯罪データは処理され、殺人事件は分離されて、出力フローは指定したGoogle BigQueryテーブルに送信されます。