始める前に
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、データベース接続を使用します。
ソースデータを保管するデータセットが追加済みであること。
ここでは、ID、名前、収入などを含むリードデータを使用します。このページの左パネルにある[Downloads] (ダウンロード)タブからfilter-python-customers.jsonファイルをダウンロードしてください。
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、Amazon S3に保存されたファイルとHDFSに保存されたファイルを使用します。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例え
リードの複製および処理
-
[ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、顧客のリストを使用します。
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
-
をクリックし、パイプラインにReplicateプロセッサーを追加します。フローが複製され、設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例え
replicate leads
-
パイプライン上部の[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、データをクラウドに保持する[Dataset] (データセット)を選択できます(Amazon S3)。
-
デスティネーションに意味のある名前を付けます。
例え
store in cloud
-
パイプライン底部の[ADD DESTINATION] (デスティネーションの追加)アイテムの横にあるを
クリックし、[Filter] (フィルター)プロセッサーを追加します。
-
プロセッサーに意味のある名前を付けます。
例え
filter on lead revenues
-
[Filter] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)リストで.Revenueを選択し、この値に基づいてリードをフィルタリングします。
-
レコードのフィルタリングで関数を適用しない場合は、[Optionally select a function to apply] (適用する機能をオプションとして選択)リストで[NONE] (なし)を選択します。
-
70000ドル超の売上のリードをフィルタリングする場合は、[Operator] (オペレーター)リストで>=を選択し、[Value] (値)リストに70000と入力します。
-
[Save] (保存)をクリックして設定を保存します。
-
(オプション) Filterプロセッサープレビューを表示し、フィルタリング操作後のデータを確認します。
例え
-
パイプライン下部にある[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、データをオンプレミス(HDFS)に保持するデータセットを選択し、意味のある名前を付けることができます。
例え
store on premises
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、レコードは複製されてフィルタリングされ、出力フローは指定のターゲットシステムに送信されます。