機械学習101 - デシジョンツリー - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
この記事では、機械学習とデシジョンツリーを開発する方法について説明します。

概要

この実践的チュートリアルでは、TalendとSparkを使って機械学習ルーチンを開発する基礎を示します。具体的には、デシジョンツリー学習を活用し、実際の銀行のマーケティングデータを分類します。修了すれば、機械学習がどのようにTalendワークフローに統合されているかに関する実用的知識と、再利用可能なコードスニペットを習得できます。

このチュートリアルで使われるソースデータは、UCI機械学習リポジトリーから取得されました。Irvine, CA: University of California, Schools of Information and Computer Science. パブリックドメインで使用できて、次に割り当てられています: [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing Data Set

前提条件

  • Hortonworks 2.4 (HDP)がインストール済みで、設定されていること。また、ダウンロード可能な仮想マシン(VM)であるHortonworksサンドボックスも使えます。詳細は、HDFSメタデータを作成 - Hortonworksをご覧ください。
  • Hadoopのエコシステムのツールとテクノロジーに関する基本的な知識があること。
  • Hadoop Distributed File System (HDFS)とSparkの基本的な知識があること。
  • Talend StudioTalend Big Data Platformの実践的知識があること。
  • Talend Big Data Platformがインストール済みで、設定されていること。このプラットフォーム以降のどのライセンスモデルでも動作します。