文字列を処理して短距離のタクシー利用に対応する収入を取得 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
Last publication date
2024-02-26

テストソース、Field selectorプロセッサー、Type converterプロセッサー、Filterプロセッサー、HDFSデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

  • ソースデータを保管するデータセットが追加済みであること。

    ここでは、乗車時刻、降車時刻、運賃などの階層タクシーデータを表示します(このページの左パネルにある[Downloads] (ダウンロード)タブからtype_converter-taxi.jsonファイルをダウンロードします)。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、ファイルはHDFSに保存されているものとします。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Convert small taxi rides
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合はタクシー関連のデータ)を選択できます。
    タクシーの階層データを持つデータサンプルのプレビュー。
    警告: Type converterプロセッサーはサブレコードを処理できません。これらのレコードを変換するには、事前にField Selectorプロセッサーを使用してレコードを再編成し、スキーマの上に置く必要があります。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    reorganize records
  7. [Simple] (シンプル)選択モードで[Edit] (編集)アイコンをクリックします:
    1. 最初の場所のpickup_datetimeフィールドを選択して名前を変更し、スキーマのトップレベルに移動させる場合は、.pickup.pickup_datetimeフィールドを選択してpickup_timeという名前を付けます。
    2. 最初の場所のdropoff_datetimeフィールドを選択して名前を変更し、スキーマのトップレベルに移動させる場合は、.dropoff.dropoff_datetimeフィールドを選択してdropoff_timeという名前を付けます。
    3. 最初の場所のfare_amountフィールドを選択して名前を変更し、スキーマのトップレベルに移動させる場合は、.payment.fare_amountフィールドを選択してfareという名前を付けます。
    4. [Edit] (編集)[Save] (保存)の順にクリックして設定を保存します。
      タクシーレコードの再編成後のField selectorプロセッサーのプレビュー。
  8. +をクリックし、パイプラインにType converterプロセッサーを追加します。設定パネルが開きます。
  9. プロセッサーに意味のある名前を付けます。

    convert rides and fares
  10. [Converters] (コンバーター)エリアで次の操作を行います。
    1. 乗車時刻情報が保存されているDateTime型フィールドをInteger型フィールドに変換する場合は、[Field path] (フィールドパス)リストで.pickup_timeを選択し、[Primitive] (プリミティブ)モードを選択し、[Output type] (出力タイプ)リストでDateTimeを選択して、[Format] (形式)フィールドにyyyy-MM-dd HH:mm:ssと入力します。yyyy-MM-dd HH:mm:ssは入力フィールドの形式に相当します。
      ヒント: データ型とパターンの詳細は、日付と時間のパターンに関する追加情報を参照してください。
    2. 降車時刻情報が保存されているDateTime型フィールドをInteger型フィールドに変換する場合は、+アイコンをクリックして新しいコンバーターを追加し、[Field path] (フィールドパス)リストで.dropoff_timeを選択し、[Primitive] (プリミティブ)モードを選択し、[Output type] (出力タイプ)リストでDateTimeを選択して、[Format] (形式)フィールドにyyyy-MM-dd HH:mm:ssと入力します。yyyy-MM-dd HH:mm:ssは入力フィールドの形式に相当します。
    3. 運賃情報が保存されているString型フィールドをDouble型フィールドに変換する場合は、+アイコンをクリックして新しいコンバーターを追加し、[Field path] (フィールドパス)リストで.fareを選択し、[Primitive] (プリミティブ)を選択し、[Output type] (出力タイプ)リストでDoubleを選択します。
      ヒント: 同じフィールドに複数の変換を適用することもできます。たとえば、日付を含むString型のフィールドをLong型のフィールドに変換し、生成されたこのLong型フィールドを使えばDateTime型のフィールドに変換できます。
    4. [Save] (保存)をクリックして設定を保存します。
      乗車と運賃に関連するレコードを変換した後のType converterプロセッサーのプレビュー。
  11. パイプラインのType Converterプロセッサーの後ろにある+をクリックし、Filterプロセッサーを追加します。
  12. プロセッサーに意味のある名前を付けます。

    filter on short rides
  13. [Filters] (フィルター)エリアで次の操作を行います。
    1. 11分未満の乗車をフィルタリングする場合は、[Input] (入力)リストに.{.dropoff_time - .pickup_time > 660000}と入力します。
    2. 短時間の乗車をカウントする場合は、[Optionally select a function to apply] (適用するファンクションをオプションとして選択)リストでCountを、[Operator] (オペレーター)リストで>を選択し、[Value] (値)リストに0と入力します。
    3. [Save] (保存)をクリックして設定を保存します。
      短時間の乗車にタクシーレコードをフィルタリングした後のFilterプロセッサーのプレビュー。
  14. (オプション) Filterプロセッサーのプレビューを表示し、フィルタリング操作後のデータを確認します。
  15. パイプラインで[ADD DESTINATION] (デスティネーションを追加)をクリックしてパネルを開きます。このパネルで、お使いのデータ(HDFS)を保持するデータセットを選択できます。
  16. 意味ある名前(short rides dataなど)を付けます。
  17. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  18. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、フィールドタイプは変換されてフィルタリングされ、出力フローは指定のターゲットシステムに送信されます。