Propriétés du tKMeansStrModel pour Apache Spark Streaming - 7.3

Apprentissage automatique (Machine learning)

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tKMeansStrModel s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tKMeansStrModel Spark Streaming appartient à la famille Apprentissage automatique.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Sauvegarder sur le disque

Cochez cette case pour stocker le modèle de clustering dans un répertoire HDFS spécifié dans le champ Path.

Dans ce cas, vous devez saisir l'intervalle de temps (en minutes) à la fin duquel le modèle est sauvegardé.

Si vous décochez cette case, votre modèle sera stocké dans la mémoire.

Path

Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

Dans le champ Path, saisissez le répertoire HDFS à utiliser.

Ce champ est disponible lorsque vous cochez les cases utilisées pour sauvegarder un modèle ou pour lire un modèle d'un système de fichiers.

Charger un modèle pré-calculé du disque

Cochez cette case pour utiliser un modèle K-Means existant dans le répertoire spécifié dans le champ Path. Ceci est le cas d'usage fréquent lorsque vous utilisez le tKMeansStrModel. Dans cette situation, les comportements suivants peuvent être attendus :

  • Si vous cochez la case Reuse the model transformation associated with the model, le tKMeansStrModel réutilise, avec ce modèle à utiliser, les algorithmes de pré-traitement des caractéristiques précédemment implémentés durant la création de ce modèle. Cette réutilisation permet au tKMeansStrModel de transformer directement les nouvelles données entrantes en vecteurs de caractéristiques conformes à K-Means et traite ces vecteurs, sans avoir à attendre une autre implémentation des mêmes algorithmes.

    Cependant, lorsque cette option est activée, vous devez vérifier le schéma des données ayant été transformé par ces algorithmes de pré-traitement des caractéristiques et vous assurer que les nouvelles données entrant dans le tKMeansStrModel utilisent le même schéma.

    Vous pouvez simplement voir ce schéma dans le Job ayant implémenté initialement ces algorithmes de pré-traitement des caractéristiques.

  • Si vous décochez la case Reuse the model transformation associated with the model, vous devez placer un ou plusieurs composants tModelEncoder avant le tKMeansStrModel afin de transformer les données entrantes en vecteurs de caractéristiques requis pour K-Means. Sélectionnez ensuite la colonne fournissant ces vecteurs de caractéristiques dans la liste Vector to process qui s'affiche.

    Pour plus d'informations concernant le tModelEncoder, consultez tModelEncoder.

  • Si le modèle à charger n'existe pas, le tKMeansStrModel initialise automatiquement deux clusters pour créer un modèle K-Means.

Si vous décochez la case Load a precomputed model from disk, le tKMeansStrModel crée un modèle K-Means de zéro.

Vecteur à traiter

Sélectionnez la colonne d'entrée utilisée pour fournir les vecteurs des caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder.

Cette liste s'affiche lorsque vous avez décoché la case Load a precomputed model from disk ou la case Reuse the model transformation associated with the model.

Size of your feature vector

Saisissez la taille des vecteurs de caractéristiques à traiter depuis la colonne sélectionnée dans la liste Vector to process.

Display the vector size

Cochez cette case pour afficher les vecteurs de caractéristiques à utiliser dans la console de la vue Run.

Cette fonctionnalité ralentit votre Job mais est utile lorsque vous ne connaissez pas la valeur à saisir dans le champ Size of your feature vector.

Number of clusters (K)

Saisissez le nombre de clusters dans lesquels vous souhaitez que le composant tKMeansModel mette les données en clusters.

Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage.

Ce champ s'affiche lorsque vous avez décoché la case Load a precomputed model from disk afin de créer un modèle K-Means de zéro.

Facteur d'amortissement

Saisissez le taux d'amortissement (entre 0 et 1) à appliquer pour réduire le poids des points existants par rapport aux nouveaux points entrants dans le processus d'évaluation des nouveaux centres des clusters.

Un faible taux d'amortissement signifie une plus grande importance à attacher aux nouvelles données entrantes. Lorsque le taux d'amortissement est de 0, les nouveaux centres des clusters sont entièrement déterminés par les nouveaux points. Lorsque le taux d'amortissement est de 1, les points existants et les nouveaux points entrants sont évalués de manière égale.

Unité de temps

Sélectionnez l'unité sur laquelle appliquer le taux de décroissance : point ou ensemble de points (batch).

Advanced settings

Display the centers after the processing

Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run.

Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means.

Utilisation

Règle d'utilisation

Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée.

Model evaluation

Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les ensembles de données.

Vous devez effectuer un apprentissage pour le modèle de relation que vous générez avec différents jeux de valeurs de paramètres, jusqu'à ce que vous obteniez le meilleur résultat d'évaluation. Cependant, vous devez écrire vous-même le code d’évaluation, afin de noter votre modèle avec des scores.