Construire le flux de données - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Procédure

  1. Dans la perspective Integration du Studio, créez un Job vide Spark Batch, nommé rf_model_creation par exemple, depuis le nœud Job Designs de la vue Repository.
    Pour plus d'informations concernant la création d'un Job Spark Batch, consultez le Guide de prise en main du Studio.
  2. Dans l'espace de modélisation graphique, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont les suivants : un tHDFSConfiguration, un tFileInputDelimited, un tRandomForestModel et quatre tModelEncoder.
    Il est recommandé de renommer les quatre composants tModelEncoder différemment afin de reconnaître d'un coup d’œil quelle tâche est effectuée par quel composant. Dans ce scénario, ils sont nommés, respectivement Tokenize, tf, tf_idf et features_assembler.
  3. Connectez tous les composants à l'aide de liens Row > Main, sauf le tHDFSConfiguration, comme dans la capture d'écran précédente.