Créer un modèle de classification pour filtrer les spams - 6.5

Machine Learning

Version
6.5
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant une souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, vous allez créer des Jobs Spark Batch. Les composants clés sont à utiliser comme suit :
  • tModelEncoder : plusieurs composants tModelEncoder sont utilisés pour transformer des messages texte (SMS) en ensemble de caractéristiques.

  • tRandomForestModel : il analyse les caractéristiques entrantes depuis le tModelEncoder afin de construire un modèle de classification comprenant à quoi ressemblent un message indésirable et un message normal.

  • tClassify : dans un nouveau Job, il applique ce modèle de classification afin de traiter un nouvel ensemble de SMS pour classer les messages indésirables et les messages normaux. Dans ce scénario, les résultats de cette classification sont utilisés pour évaluer la précision du modèle, puisque la classification des messages traités par le tClassify est déjà connue et explicitement marquée.

  • Un composant de configuration comme le tHDFSConfiguration dans chaque Job : Ce composant est utilisé pour se connecter au système de fichiers auquel sont transférés les fichiers JAR dépendants du Job lors de son exécution.

    Ce composant de configuration relatif à un système de fichiers est requis, sauf si vous exécutez vos Jobs Spark en mode Local.