Accéder au contenu principal Passer au contenu complémentaire

Introduction à l'apprentissage automatique - Arbres de décision

Cet article présente comment développer l'apprentissage automatique et les arbres de décision.

Vue d'ensemble

Ce tutoriel pratique présente les bases de développement d'une routine d'apprentissage automatique à l'aide de Talend et Spark. L'apprentissage d'arbre de décision sera utilisé pour la classification de données marketing bancaire réelles. Une fois ce tutoriel terminé, vous aurez acquis des connaissances pratiques suffisantes de la manière dont l'apprentissage automatique est intégré dans un workflow Talend et vous aurez des snippets de code réutilisables.

Les données source utilisées dans ce tutoriel ont été récupérées depuis le référentiel UCI Machine Learning Repository. Irvine, CA : University of California, Schools of Information and Computer Science. Ces données sont disponibles dans le domaine public et sont attribuées à : [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing Data Set

Prérequis

Vous avez :
  • Hortonworks 2.4 (HDP) est installé et configuré. Vous pouvez également utiliser Hortonworks sandbox, une machine virtuelle téléchargeable. Pour plus d'informations, consultez Create HDFS Metadata - Hortonworks.
  • Connaissances de base :
    • des outils et technologies de l'écosystème Hadoop,
    • du système de fichiers distribué Hadoop (HDFS) et de Spark.
  • Connaissances suffisantes pour travailler avec le Studio Talend et Talend Big Data Platform.
  • Vous avez installé et configuré Talend Big Data Platform.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !