始める前に
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、データベースへの接続を使用します。
ソースデータを保管するデータセットが追加済みであること。
ここでは、このドキュメントに添付できる登録日フィールドがある顧客のリストを使用します。このページの左側パネルにある[Downloads] (ダウンロード)タブでfilter-python-customers.jsonファイルをダウンロードします。
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、ファイルはHDFSに保管されているものとします。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
- パイプラインに意味のある名前を付けます。
例え
Filter on Registration and Revenue
- [ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、データベースに保存されている顧客のリストです。
例え
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
をクリックして、パイプラインにFilterプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
- プロセッサーに意味のある名前を付けます。
例え
customers registered in 2000
- [Filter] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)リストで.RegistrationDateを選択し、この値に基づいて顧客をフィルタリングします。
-
レコードのフィルタリングで関数を適用しない場合は、[Optionally select a function to apply] (適用する機能をオプションとして選択)リストで[NONE] (なし)を選択します。
- 登録日に2000年が含まれている顧客をフィルタリングする場合は、[Operator] (オペレーター)リストでCONTAINSを選択し、[Value] (値)リストに2000と入力します。
-
[Save] (保存)をクリックして設定を保存します。
をクリックし、パイプラインに別のFilterプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
- プロセッサーに意味のある名前を付けます。
例え
customers with revenue > 90000
- [Filter] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)リストで.Revenueを選択し、この値に基づいて顧客をフィルタリングします。
-
レコードのフィルタリングで関数を適用しない場合は、[Optionally select a function to apply] (適用する機能をオプションとして選択)リストで[NONE] (なし)を選択します。
- 90000ドルを超える収入のある顧客をフィルタリングする場合は、[Operator] (オペレーター)リストで>を選択し、[Value] (値)リストに90000と入力します。
-
[Save] (保存)をクリックして設定を保存します。
-
最初のFilterプロセッサーの横にある
ボタンをクリックし、フィルター基準に一致しないデータを保存するデータセットを追加および選択します。
- デスティネーションに意味のある名前を付けます。
例え
other registration date
-
Filterプロセッサーの横にある[ADD DESTINATION] (デスティネーションの追加)ボタンをクリックし、フィルター基準に一致しないデータを保存するデータセットを追加および選択します。
必要であれば名前を変更します。
- 2番目のFilterプロセッサーの横にある
ボタンをクリックし、リジェクトデータを保存するデータセットを選択します。
- デスティネーションに意味のある名前を付けます。
例え
other customers
-
(オプション) 最後のFilterプロセッサープレビューを表示し、フィルタリング操作後のデータを確認します。
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、記述した条件に基づいてデータがフィルタリングされ、指定したターゲットシステムに出力が送られます。