Propriétés du tKMeansModel pour Apache Spark Batch - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tKMeansModel s'exécutant dans le framework de Jobs Spark Batch.

Le composant tKMeansModel Spark Batch appartient à la famille Machine Learning.

Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Vector to process

Sélectionnez la colonne d'entrée utilisée pour fournir les vecteurs des caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder.

Save the model on file system

Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

Number of clusters (K)

Saisissez le nombre de clusters dans lesquels vous souhaitez que le tKMeansModel mette les données en clusters.

Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage. Il est donc recommandé de saisir un nombre raisonnable basé sur le nombre de clusters potentiels que vous pensez que peuvent contenir les données à traiter, par exemple en les observant.

Set distance threshold of the convergence (Epsilon)

Cochez cette case et, dans le champ Epsilon qui s'affiche, saisissez la distance de convergence à utiliser. Le modèle d'apprentissage est considéré comme terminé lorsque tous les centres des clusters ont effectué un déplacement inférieur à cette distance.

Si vous laissez cette case décochée, la distance de convergence par défaut, 0.0001, est utilisée.

Set the maximum number of runs

Cochez cette case et, dans le champ Maximum number of runs qui s'affiche, saisissez le nombre d'itérations que vus souhaitez que le Job effectue pour apprendre le modèle.

Si vous laissez cette case décochée, la valeur par défaut, 20, est utilisée

Set the number of parallelized runs

Cochez cette case et, dans le champ Number of parallelized runs, saisissez le nombre d'itérations que vous souhaitez que le Job exécute en parallèle.

Si vous laissez cette case décochée, la valeur par défaut, 1, est utilisée. Cela signifie que les itérations seront exécutées successivement.

Ce paramètre vous permet d'optimiser l'utilisation de vos ressources pour le calcul mais n'impacte pas les performances des prédictions du modèle.

Initialization function

Sélectionnez le mode à utiliser pour sélectionner les points comme centres initiaux des clusters.

  • Random : les points sont sélectionnés de manière aléatoire. Généralement, ce mode est utilisé pour des ensembles de données simples.

  • K-Means|| : ce mode est connu comme "Scalable K-Means++", un algorithme parallèle pouvant obtenir un résultat d’initialisation presque optimal. Ce mode est également le mode d'initialisation par défaut.

    Pour plus d'informations concernant ce mode, consultez Scalable K-Means++.

Set the number of steps for the initialization

Cochez cette case et, dans le champ Steps qui s'affiche, saisissez le nombre de processus d'initialisation à exécuter pour un résultat d'initialisation optimal.

Si vous laissez cette case décochée, la valeur par défaut 5 est utilisée. 5 processus sont presque toujours suffisants pour que le mode K-Means|| obtienne un résultat optimal.

Define the random seed

Cochez cette case et, dans le champ Seed qui s'affiche, saisissez la graine à utiliser pour l'initialisation des centres des clusters.

Advanced settings

Display the centers after the processing

Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run.

Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means.

Utilisation

Règle d'utilisation

Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée.

Vous pouvez accélérer le processus d'apprentissage en ajustant les conditions d'arrêt, comme le nombre maximal d'exécutions ou la distance de convergence. Cependant, si l'apprentissage s'arrête trop tôt, cela peut impacter ses performances.

Évaluation du modèle

Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont pas de valeur optimale applicable à tous les ensembles de données.

Vous devez effectuer un apprentissage pour le modèle de relation que vous générez avec différents jeux de valeurs de paramètres, jusqu'à ce que vous obteniez le meilleur résultat d'évaluation. Cependant, vous devez écrire vous-même le code d’évaluation, afin de noter votre modèle avec des scores.