Création d'un modèle de classification pour filtrer les spams - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, vous allez créer des Jobs Spark Batch. Les composants clés sont à utiliser comme suit :
  • tModelEncoder : plusieurs composants tModelEncoder sont utilisés pour transformer des messages texte (SMS) en ensemble de caractéristiques.

  • tRandomForestModel : il analyse les caractéristiques entrantes depuis le tModelEncoder afin de construire un modèle de classification comprenant à quoi ressemblent un message indésirable et un message normal.

  • tClassify : dans un nouveau Job, il applique ce modèle de classification afin de traiter un nouvel ensemble de SMS pour classer les messages indésirables et les messages normaux. Dans ce scénario, les résultats de cette classification sont utilisés pour évaluer la précision du modèle, puisque la classification des messages traités par le tClassify est déjà connue et explicitement marquée.

  • Un composant de configuration comme le tHDFSConfiguration est utilisé dans chaque Job : ce composant est utilisé pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job seront transférés durant l'exécution du Job.

    Ce composant de configuration du système de fichiers est requis, sauf si vous exécutez votre Job en mode Local.