Construire le flux de données

Procédure

Dans la perspective Integration du Studio Talend, créez un Job vide Spark Batch, nommé rf_model_creation par exemple, depuis le nœud Job Designs de la vue Repository.
Pour plus d'informations concernant la création d'un Job Spark Batch, consultez .
Dans l'espace de modélisation, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui apparaît. Dans ce scénario, les composants sont les suivants : un tHDFSConfiguration, un tFileInputDelimited, un tRandomForestModel et quatre tModelEncoder.
Il est recommandé de renommer les quatre composants tModelEncoder différemment afin de reconnaître d'un coup d’œil quelle tâche est effectuée par quel composant. Dans ce scénario, ils sont nommés, respectivement, Tokenize, tf, tf_idf et features_assembler.
Hormis le tHDFSConfiguration, reliez les autres composants à l'aide d'un lien Row > Main comme dans la capture d'écran précédente.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici