tKMeansStrModel - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

La version Streaming de ce composant est disponible dans la Palette du studio si vous avez souscrit à Talend Real-time Big Data Platform ou Talend Data Fabric.

Fonction

Le composant tKMeansStrModel analyse des ensembles de données entrants en quasi temps réel, en appliquant l'algorithme K-Means.

Il met à jour continuellement un modèle de clustering K-Means à partir de cette analyse et écrit ce modèle dans la mémoire ou dans un système de fichiers donné.

Objectif

Ce composant analyse les vecteurs de caractéristiques en flux afin d'adapter continuellement un modèle de clustering aux circonstances changeantes. Les données entrantes sont généralement pré-traitées par le tModelEncoder et le modèle K-Means est utilisé par le tPredictCluster pour mettre en clusters des éléments donnés.

Propriétés du tKMeansStrModel dans des Jobs Spark Streaming

Famille du composant

Machine Learning / Clustering

 

Basic settings

Save on disk

Cochez cette case pour stocker le modèle de clustering dans un répertoire HDFS spécifié dans le champ Path.

Dans ce cas, vous devez saisir l'intervalle de temps (en minutes) à la fin duquel le modèle est sauvegardé.

Si vous décochez cette case, votre modèle sera stocké dans la mémoire.

 

Path

Cochez cette case pour stocker le modèle dans un système de fichiers donné.

Dans le champ Path, saisissez le répertoire HDFS à utiliser.

Ce champ est disponible lorsque vous cochez les cases utilisées pour sauvegarder un modèle ou pour lire un modèle d'un système de fichiers.

 

Load a precomputed model from disk

Cochez cette case pour utiliser un modèle K-Means existant dans le répertoire spécifié dans le champ Path. Ceci est le cas d'usage fréquent lorsque vous utilisez le tKMeansStrModel. Dans cette situation, les comportements suivants peuvent être attendus :

  • Si vous cochez la case Reuse the model transformation associated with the model, le tKMeansStrModel réutilise, avec ce modèle à utiliser, les algorithmes de pré-traitement des caractéristiques précédemment implémentés durant la création de ce modèle. Cette réutilisation permet au tKMeansStrModel de transformer directement les nouvelles données entrantes en vecteurs de caractéristiques conformes à K-Means et traite ces vecteurs, sans avoir à attendre une autre implémentation des mêmes algorithmes.

    Cependant, lorsque cette option est activée, vous devez vérifier le schéma des données ayant été transformé par ces algorithmes de pré-traitement des caractéristiques et vous assurer que les nouvelles données entrant dans le tKMeansStrModel utilisent le même schéma.

    Vous pouvez simplement voir ce schéma dans le Job ayant implémenté initialement ces algorithmes de pré-traitement des caractéristiques.

  • Si vous décochez la case Reuse the model transformation associated with the model, vous devez placer un ou plusieurs composants tModelEncoder avant le tKMeansStrModel afin de transformer les données entrantes en vecteurs de caractéristiques requis pour K-Means. Sélectionnez ensuite la colonne fournissant ces vecteurs de caractéristiques dans la liste Vector to process qui s'affiche.

    Pour plus d'informations concernant le tModelEncoder, consultez tModelEncoder.

  • Si le modèle à charger n'existe pas, le tKMeansStrModel initialise automatiquement deux clusters pour créer un modèle K-Means.

Si vous décochez la case Load a precomputed model from disk, le tKMeansStrModel crée un nouveau modèle K-Means de zéro.

 

Vector to process

Sélectionnez la colonne d'entrée à utiliser pour fournir les vecteurs de caractéristiques. Très souvent, cette colonne est la sortie des calculs effectués par le tModelEncoder.

Cette liste s'affiche lorsque vous avez décoché la case Load a precomputed model from disk ou la case Reuse the model transformation associated with the model.

 

Size of your feature vector

Saisissez la taille des vecteurs de caractéristiques à traiter depuis la colonne sélectionnée dans la liste Vector to process.

 

Display the vector size

Cochez cette case pour afficher les vecteurs de caractéristiques à utiliser dans la console de la vue Run.

Cette fonctionnalité ralentit votre Job mais est utile lorsque vous ne connaissez pas la valeur à saisir dans le champ Size of your feature vector.

 

Number of clusters (K)

Saisissez le nombre de clusters dans lesquels vous souhaitez que le composant tKMeansModel mette les données en clusters.

Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage.

Ce champ s'affiche lorsque vous avez décoché la case Load a precomputed model from disk afin de créer un modèle K-Means de zéro.

Decay factor

Saisissez le taux d'amortissement (entre 0 et 1) à appliquer pour réduire le poids des points existants par rapport aux nouveaux points entrants dans le processus d'évaluation des nouveaux centres des clusters.

Un faible taux d'amortissement signifie une plus grande importance à attacher aux nouvelles données entrantes. Lorsque le taux d'amortissement est de 0, les nouveaux centres des clusters sont entièrement déterminés par les nouveaux points. Lorsque le taux d'amortissement est de 1, les points existants et les nouveaux points entrants sont évalués de manière égale.

 

Time unit

Sélectionnez l'unité sur laquelle appliquer le taux de décroissance : point ou ensemble de points (batch).

Advanced settings

Display the centers after the processing

Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run.

Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means.

Utilisation dans des Jobs Spark Streaming

Dans un Job Talend Spark Streaming, il est utilisé en tant que composant de fin et nécessite un lien d'entrée. Les composants utilisés avec celui-ci doivent également être des composants Spark Streaming. Ils génèrent nativement du code Spark pouvant être exécuté directement dans un cluster Spark.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario associé

Aucun scénario n'est disponible pour la version Spark Streaming de ce composant.