顧客の数値データをHDFS上のクラスターにグルーピングする(非推奨)

顧客の数値データをHDFS上のクラスターにグルーピングする(非推奨) - 7.3

Machine Learning

Version

7.3

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント

データガバナンス > サードパーティーシステム > 機械学習コンポーネント

データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

Last publication date

2024-02-22

このシナリオは、ビッグデータ関連Talend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオは、モデルベースのクラスタリングに関する研究論文から発想を得ています。そのデータは、Wholesale customers Data Setにあります。研究論文は、Enhancing the selection of a model-based clustering with external categorical variablesから入手できます。このシナリオは、 Talend Studio にインポートできるData Quality Demosプロジェクトに含まれています。詳細は、 Talend Studioユーザーガイドを参照してください。

このシナリオのジョブは、特定のHadoop分散ファイルシステム(HDFS)に接続し、tMahoutClusteringのアルゴリズムを使って"卸売業者"の顧客を2つのクラスターにグルーピングし、特定のHDFSにデータを出力します。

データセットには、卸売業者のクライアントを参照する440個のサンプルがあります。これには、生鮮食品や食料品、牛乳などのさまざまな製品カテゴリーの通貨単位での年間支出が含まれます。

データセットは、さまざまなチャネルの顧客を参照しています: Horeca (ホテル/レストラン/カフェ)または小売(少量の商品販売)チャネル、および異なる地域から(リスボン/オポルト/その他)。

このジョブは以下を使います。

tMahoutClustering: 入力データセットのクラスターを計算します。
2つのtAggregateRowコンポーネント: カラムregionとchannelに基づいて、両方のクラスターのクライアント数をカウントします。
3つのtMapコンポーネント: チャネルと地域の入力フローを2つの別々の出力フローにマップします。これらのコンポーネントは、tMahoutClusteringから受け取った1つのclusterIDカラムを、地域とチャネルのクラスターに供給するカラム2つのデータフローにマップするためにも使われます。
2つのtHDFSOutputコンポーネント: 2つの出力ファイルでデータをHDFSに書き込みます。

前提条件: tMahoutClusteringコンポーネントを使うには、機能しているHadoopシステムが必要です。