Python 2を使って顧客レコードに複数の操作を実行 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、データベース接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    ここでは、名、姓、登録日、および収入のフィールドがある顧客のテーブルを使用します。このページの左パネルにある[Downloads] (ダウンロード)タブからfilter-python-customers.jsonファイルをダウンロードできます。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、ファイルはHDFSに保存されているものとします。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    例え

    顧客をPythonで処理
  3. [ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、顧客のテーブルです。

    例え

  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加します。
    必要であれば名前を変更します。
  5. をクリックし、パイプラインに[Python 2]プロセッサーを追加します。[Configuration] (設定)パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    例え

    名前を集約 - ユーロに変換 - 登録日を計算
  7. [Map] (マップ)リストで[Map] (マップ)を選択します。
  8. [Python code] (Pythonコード)エリアに、以下を入力します。
    date=input['RegistrationDate'].split("/")
    year=date[2]
    
    output['id'] = input['id']
    output['fullname'] = input['Firstname'] + " " + input["Lastname"]
    output['euro_revenue'] = int(input['Revenue']) * 0.83
    output['number_year_registrated'] = 2019 - int(year)
    このコードでは、以下の処理が可能なります:
    • 姓と名のフィールドを連結する

    • 売上をユーロに変換する

    • 顧客が登録されていた年数を計算する

  9. [Save] (保存)をクリックして設定を保存します。
  10. パイプラインの[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、処理済みのデータを保持するデータセットを選択できます。
    必要であれば名前を変更します。
  11. (オプション) [Python 2]プロセッサーのプレビューを確認し、操作の前後のデータを比較します。
  12. Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
  13. 実行アイコンをクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、Pythonコードで記述した条件に基づいてデータが処理され、指定したターゲットシステムに出力が送られます。