顧客の行動に関する調査レコードを再編成 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
Last publication date
2024-02-26

テストソース、Field selectorプロセッサー、HDFSデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するデータセットが追加済みであること。

    field_selector-customers.zipファイルをダウンロードして抽出します。顧客の行動に関する調査のデータセット(XまたはYのデバイス顧客のタイプなど)が含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、ファイルはHDFSに保存されているものとします。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Restructure Customer Schema
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合はテストデータセットとして手動入力された顧客調査)を選択できます。

    ユーザーデバイスのレコードを持つデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    restructure fields
  7. [Advanced] (詳細設定)モードの[Selectors] (セレクター)エリアで:
    1. idフィールドを同じ場所に置いたまま選択して名前を変更する場合は、[Input] (入力)リストで.idを選択し、[Output] (出力)リストにidentifierと入力します。
    2. 最初の場所のcountryフィールドを選択してスキーマのトップレベルに移動させる場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストで.location[0].countryを、[Output] (出力)リストでcountryをそれぞれ選択します。
    3. devicesフィールドを選択して同じ場所に保持しておく場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストで.devicesを選択して、[Output] (出力)リストでdevices_usedと入力します。
    4. otherに等しいnameサブフィールドと共にdevicesフィールドをすべて選択する場合は、+記号をクリックして新しいエレメントを追加し、[Input] (入力)リストに.devices[*]{.name == "other"}.ipと、[Output] (出力)リストにother_devicesとそれぞれ入力します。

      このエリアではavpath構文を使用できます。

  8. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、再構成前のデータと再構成後のデータを比較します。

    レコード再構築後のField selectorプロセッサーのプレビュー。
  9. [ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保持するデータセットを選択します。
    必要であれば名前を変更します。
  10. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  11. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、データは記述した条件に基づいて再編成され、出力は指定したターゲットシステムに送信されます。