顧客の数値データをHDFS上のクラスターにグルーピングする(非推奨) - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

このシナリオは、サブスクリプションベースのビッグデータ関連Talend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオは、モデルベースのクラスタリングに関する研究論文から発想を得ています。そのデータは、Wholesale customers Data Setにあります。研究論文は、Enhancing the selection of a model-based clustering with external categorical variablesから入手できます。このシナリオは、 Talend Studio にインポートできるData Quality Demosプロジェクトに含まれています。詳細は、 Talend Studioユーザーガイドを参照してください。

このシナリオのジョブは、特定のHadoop分散ファイルシステム(HDFS)に接続し、tMahoutClusteringのアルゴリズムを使って"卸売業者"の顧客を2つのクラスターにグルーピングし、特定のHDFSにデータを出力します。

データセットには、卸売業者のクライアントを参照する440個のサンプルがあります。これには、生鮮食品や食料品、牛乳などのさまざまな製品カテゴリーの通貨単位での年間支出が含まれます。

データセットは、さまざまなチャネルの顧客を参照しています: Horeca (ホテル/レストラン/カフェ)または小売(少量の商品販売)チャネル、および異なる地域から(リスボン/オポルト/その他)。

このジョブは以下を使います。

  • tMahoutClustering: 入力データセットのクラスターを計算します。

  • 2つのtAggregateRowコンポーネント: カラムregionchannelに基づいて、両方のクラスターのクライアント数をカウントします。

  • 3つのtMapコンポーネント: チャネルと地域の入力フローを2つの別々の出力フローにマップします。これらのコンポーネントは、tMahoutClusteringから受け取った1つのclusterIDカラムを、地域とチャネルのクラスターに供給するカラム2つのデータフローにマップするためにも使われます。

  • 2つのtHDFSOutputコンポーネント: 2つの出力ファイルでデータをHDFSに書き込みます。

前提条件: tMahoutClusteringコンポーネントを使うには、機能しているHadoopシステムが必要です。