抽出された情報の集約 - 7.1

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

手順

  1. tAggregateRowをダブルクリックして、[Component] (コンポーネント)ビューを開きます。このコンポーネントにより、受信したメッセージに記録されている最も人気のあるアクティビティを見つけることができます。
  2. [Edit schema] (スキーマの編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  3. 出力側(右側)で[+]ボタンを3回クリックして3つの行を追加し、[Column] (カラム)カラムで3つの行の名前をそれぞれ、activitygenderpopularityに変更します。
  4. 出力側のpopularity行の[Type] (タイプ)カラムで、Doubleを選択します。
  5. [OK]をクリックしてこれらの変更を確定し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  6. [Group by] (グループ化)テーブルで[+]ボタンを2回クリックして2つの行を追加し、これら2つの行を以下のように設定して、出力されたデータをグループ化します。
    • [Output column] (出力カラム): 出力されたデータをグループ化する条件として使用するカラムを出力スキーマから選択します。この例では、activitygenderです。

    • [Input column position] (入力カラムの位置): [Output column] (出力カラム)カラムで選択した出力カラムにデータを送信するカラムを入力スキーマから選択します。このシナリオでは、activitygenderです。

  7. [Operations] (操作)テーブルで[+]ボタンを1回クリックして1行を追加し、この行を以下のように設定して、各アクティビティの人気を計算します。
    • [Output column] (出力カラム): 計算結果を載せるカラムを出力スキーマから選択します。このシナリオでは、popularityです。

    • [Function] (関数): 受信データの処理に使用する関数を選択します。このシナリオでは、countを選択します。受信したメッセージに含まれる各アクティビティの頻度がカウントされます。

    • [Input column position] (入力カラムの位置): 処理するデータを提供するカラムを入力スキーマから選択します。このシナリオでは、activityです。

  8. F6を押してこのジョブを実行します。

タスクの結果

ジョブが実行されると、[Run] (実行)ビューが自動的に開き、実行結果を確認できます。

Drinkというアクティビティに最も人気があり、メッセージにおいて出現回数が性別M (男性)では3、性別F (女性)では1だったことが読み取れます。

Stormトポロジーは実行を継続し、ジョブを強制終了するまでKafkaメッセージブローカーにメッセージが現れるのを待ちます。このシナリオでは、[Kill topology on quitting Talend Job] (Talendジョブの終了時にトポロジーを強制終了する)チェックボックスがオンであるため、このジョブが停止するときにStormトポロジーも停止し、クラスターから削除されます。