顧客の平均購入価格を集計

顧客の平均購入価格を集計 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

Version

Cloud

Language

日本語

Product

Talend Cloud

Module

Talend Pipeline Designer

Content

ジョブデザインと開発 > パイプラインのデザイン

Last publication date

2024-02-26

テストソース、Aggregateプロセッサー、HDFSデスティネーションを伴うパイプライン。

始める前に

ソースデータを保管するシステムへの接続が作成済みであること。
ソースデータを保管するデータセットが追加済みであること。

aggregate-customers.zipファイルをダウンロードして抽出します。ID、製品情報(書名、価格ほか)など、顧客データの階層リストが含まれています。
接続および処理済みデータを保管する関連データセットも作成済みであること。

ここでは、ファイルはHDFSに保存されているものとします。

手順

[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
パイプラインに意味のある名前を付けます。
例
Aggregate Average Purchase Price
[ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は書籍の購入に関する階層顧客データのリスト)を選択できます。
例
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
をクリックし、パイプラインにAggregateプロセッサーを追加します。設定パネルが開きます。
プロセッサーに意味のある名前を付けます。
例
calculate average price
データセット全体を1つのレコードに集計する場合は、[Group by] (グループ基準)エリアで、空のフィールドの横にあるごみ箱アイコンをクリックして削除します。
[Operations] (操作)エリアで次の操作を行います。
1. 顧客が購入したすべての書籍の平均価格をグルーピングする場合は、[Field path] (フィールドパス)リストで.product.priceを、[Operation] (操作)リストで[Average] (平均)をそれぞれ選択します。
2. 生成されたフィールド([Output field name] (出力フィールド名))に、たとえばavgPriceという名前を付けます。
[Save] (保存)をクリックして設定を保存します。

集計操作後に計算されたデータ、つまり平均書籍価格が13.96ドルであることをプレビューできます。
パイプラインで[ADD DESTINATION] (デスティネーションを追加)をクリックしてパネルを開きます。ここでは、出力データ(HDFS)を保持する[Dataset] (データセット)を選択できます。
必要であれば名前を変更します。
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、書籍の平均価格は1つのレコードに集計され、出力フローは指定のターゲットシステムに送信されます。

始める前に

手順

例

例

例

タスクの結果