機械学習101 - デシジョンツリー - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント
Last publication date
2024-02-28
この記事では、機械学習とデシジョンツリーを開発する方法について説明します。

概要

この実践的チュートリアルでは、TalendとSparkを使って機械学習ルーチンを開発する基礎を示します。具体的には、デシジョンツリー学習を活用し、実際の銀行のマーケティングデータを分類します。修了すれば、機械学習がどのようにTalendワークフローに統合されているかに関する実用的知識と、再利用可能なコードスニペットを習得できます。

このチュートリアルで使われるソースデータは、UCI機械学習リポジトリーから取得されました。Irvine, CA: University of California, Schools of Information and Computer Science. パブリックドメインで使用でき、次に割り当てられています: [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing dataset.

前提条件

前提条件:
  • Hortonworks 2.4 (HDP)がインストール済みで、設定されていること。また、ダウンロード可能な仮想マシン(VM)であるHortonworks sandboxも使用できます。詳細は、「Create HDFS Metadata - Hortonworks」をご覧ください。
  • 次の基本的知識:
    • Hadoopのエコシステムのツールとテクノロジー
    • Hadoop Distributed File System (HDFS)とSpark
  • Talend StudioTalend Big Data Platformの実践的知識があること。
  • Talend Big Data Platformがインストール済みで、設定されていること。