機械学習リポジトリーデータのサンプリング - Cloud - 8.0

Machine Learning

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

このセクションでは、このチュートリアルで使われるデータのサンプルについて詳しく説明します。

このチュートリアルでは、データサイエンスを教えること、または正式なデータ分析について詳しく説明することを目的としていませんが、データのサンプルを確認するのに役立ちます。

このデータセットに関する詳細は、UCI Machine Learning Repository(UCI機械学習リポジトリー)をご覧ください。

変数が10個あり、その中から独立は9つで、依存は1つです:

  • 独立: age、jobtype、 maritalstatus、 educationlevel、 indefault、 hasmortgage、 haspersonalloan、 numcampaigncalls、priorcampaignoutcome
  • 依存: conversion

独立変数(機能変数としても知られている)は、結果の予測に使用されます。依存変数(またはターゲット変数)は、予測したいものです。上記のデータサンプルは、デシジョンツリーモデルの学習に必要な特徴とターゲット変数が含まれるタプルを示しています。データに機能の出力ベクトルと既知の出力値が両方含まれることから、この学習方法は監視学習と呼ばれます。

次のステップでは、トレーニングデータを使い、Sparkの機械学習ライブラリー(MLlib)を使用するデシジョンツリーモデルをビルドします。簡単に言えば、1546個のデータポイントからなるトレーニングデータを使って、特徴がどれだけターゲット変数の変換を予測できるかを判断することが目標です。

データのシェイプとディストリビューション全体を理解して、ダウンストリーム前提条件ができるだけ正確であることを確認する必要があります。以下は、この記事で使われるトレーニングデータセットの集計統計です。

各カテゴリー変数のレベル(はい、いいえ、失敗など)がレポートされます。数値データの場合は、四分位数がレポートされます。ターゲット変数の変換には[Yes] (はい)と[No] (いいえ)という2つのレベルがあり、[No] (いいえ)の方が[Yes] (はい)より多く表示されていることがわかります。このバランスの悪さによって、今回のデシジョンツリーのような分類器モデルを構築する際に課題がいくつかもたらされます。ただし、これらの課題とそれに関連する緩和策はこのチュートリアルの範囲外なので、ここでは説明しません。詳細は、Decision tree accuracy: effect of unbalanced data (デシジョンツリーの精度: 不均衡データの効果)をご覧ください。

言及しなければならない点は、構築したモデルが(conversion = no)をtrueかfalseのいずれかとして予測するということです。モデルのコンテキストで(conversion = no)をfalseと解釈すると、 (conversion = yes)はtrueになります。