tKMeansModel - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette si vous avez souscrit à un produit Talend Platform comprenant l'option Big Data.

Fonction

Le composant tKMeansModel analyse des ensembles de données entrants en appliquant l'algorithme K-Means.

Il génère un modèle de clustering à partir de cette analyse et écrit ce modèle dans la mémoire ou dans un système de fichiers.

Objectif

Ce composant analyse les vecteurs des caractéristiques. Ces vecteurs sont généralement pré-traités par le tModelEncoder pour générer un modèle de clustering utilisé par le tPredictCluster afin de mettre en cluster des éléments donnés.

Propriétés du tKMeansModel dans des Jobs Spark Batch

Famille du composant

Machine Learning / Clustering

 

Basic settings

Vector to process

Sélectionnez la colonne d'entrée utilisée pour fournir les vecteurs des caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder.

 

Save the model on file system

Cochez cette case pour stocker le modèle dans un système de fichiers donné.

 

Number of clusters (K)

Saisissez le nombre de clusters dans lesquels vous souhaitez que le tKMeansModel mette les données en clusters.

Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage. Il est donc recommandé de saisir un nombre raisonnable basé sur le nombre de clusters potentiels que vous pensez que peuvent contenir les données à traiter, par exemple en les observant.

Set distance threshold of the convergence (Epsilon)

Cochez cette case et, dans le champ Epsilon qui s'affiche, saisissez la distance de convergence à utiliser. Le modèle d'apprentissage est considéré comme terminé lorsque tous les centres des clusters ont effectué un déplacement inférieur à cette distance.

Si vous laissez cette case décochée, la distance de convergence par défaut, 0.0001, est utilisée.

 

Set the maximum number of runs

Cochez cette case et, dans le champ Maximum number of runs qui s'affiche, saisissez le nombre d'itérations que vus souhaitez que le Job effectue pour apprendre le modèle.

Si vous laissez cette case décochée, la valeur par défaut, 20, est utilisée

 

Set the number of parallelized runs

Cochez cette case et, dans le champ Number of parallelized runs, saisissez le nombre d'itérations que vous souhaitez que le Job exécute en parallèle.

Si vous laissez cette case décochée, la valeur par défaut, 1, est utilisée. Cela signifie que les itérations seront exécutées successivement.

Ce paramètre vous permet d'optimiser l'utilisation de vos ressources pour le calcul mais n'impacte pas les performances des prédictions du modèle.

 

Initialization function

Sélectionnez le mode à utiliser pour sélectionner les points comme centres initiaux des clusters.

  • Random : les points sont sélectionnés de manière aléatoire. Généralement, ce mode est utilisé pour des ensembles de données simples.

  • K-Means|| : ce mode est connu comme "Scalable K-Means++", un algorithme parallèle pouvant obtenir un résultat d'initialisation presque optimal. Ce mode est également le mode d'initialisation par défaut.

    Pour plus d'informations concernant ce mode, consultez Scalable K-Means++.

 

Set the number of steps for the initialization

Cochez cette case et, dans le champ Steps qui s'affiche, saisissez le nombre de processus d'initialisation à exécuter pour un résultat d'initialisation optimal.

Si vous laissez cette case décochée, la valeur par défaut 5 est utilisée. 5 processus sont presque toujours suffisants pour que le mode K-Means|| obtienne un résultat optimal.

 

Define the random seed

Cochez cette case et, dans le champ Seed qui s'affiche, saisissez la graine à utiliser pour l'initialisation des centres des clusters.

Advanced settings

Display the centers after the processing

Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run.

Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means.

Utilisation dans des Jobs Spark Batch

Dans un Job Talend Spark Batch, ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. Les autres composants utilisés avec lui doivent également être des composants Spark Batch. Ils génèrent nativement du code Spark pouvant être directement exécuté dans un cluster Spark.

Vous pouvez accélérer le processus d'apprentissage en ajustant les conditions d'arrêt, comme le nombre maximal d'exécutions ou la distance de convergence. Cependant, si l'apprentissage s'arrête trop tôt, cela peut impacter ses performances.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario associé

Aucun scénario n'est disponible pour la version Spark Batch de ce composant.