始める前に
-
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、データベース接続を使用します。
-
ソースデータを保管するデータセットが追加済みであること。
ここでは、名、姓、登録日、および収入のフィールドがある顧客のテーブルを使用します。このページの左パネルにある[Downloads] (ダウンロード)タブからfilter-python-customers.jsonファイルをダウンロードできます。
-
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、ファイルはHDFSに保存されているものとします。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例え
顧客をPythonで処理
-
[ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、顧客のテーブルです。
例え
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
-
をクリックし、パイプラインにPythonプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例え
名前を集約 - ユーロに変換 - 登録日を計算
-
[Map] (マップ)リストで[Map] (マップ)を選択します。
-
[Python code] (Pythonコード)エリアに、以下を入力します。
date=input['RegistrationDate'].split("/")
year=date[2]
output['id'] = input['id']
output['fullname'] = input['Firstname'] + " " + input["Lastname"]
output['euro_revenue'] = int(input['Revenue']) * 0.83
output['number_year_registrated'] = 2019 - int(year)
このコードでは、以下の処理が可能なります:
-
姓と名のフィールドを連結する
-
売上をユーロに変換する
-
顧客が登録されていた年数を計算する
-
[Save] (保存)をクリックして設定を保存します。
-
パイプラインの[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、処理済みのデータを保持するデータセットを選択できます。
必要であれば名前を変更します。
-
(オプション) Pythonプロセッサーのプレビューを確認し、操作の前後のデータを比較します。
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、Pythonコードで記述した条件に基づいてデータが処理され、指定したターゲットシステムに出力が送られます。