Propriétés du tMahoutClustering MapReduce - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tMahoutClustering s'exécutant dans le framework de Jobs MapReduce.

Le composant tMahoutClustering MapReduce appartient à la famille .

Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) dans le Repository. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie du tMahoutClustering contient une colonne en lecture seule, ClusterID.

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend .

Input HDFS file

Parcourez votre système jusqu'au fichier HDFS contenant les données numériques à traiter.

Field separator

Saisissez un caractère, une chaîne de caractères ou une expression régulière pour séparer les champs dans les données d'entrée et de sortie.

Cluster columns

Dans la colonne Input Column, sélectionnez la (les) colonne(s) du flux principal sur laquelle (lesquelles) définir des algorithmes. Ces colonnes sont utilisées pour calculer les clusters.

Vous pouvez ajouter uniquement des colonnes numériques à cette table.

Clustering type

Sélectionnez dans la liste l'algorithme de clustering à utiliser :

Canopy : cet algorithme utilise une métrique de distance approchée et deux seuils (Threshold) de distance T 1 et T 2, où T 1 > T 2. Il commence avec un ensemble de points de données dans n'importe quel ordre, prend un point appelé centroïde du cluster et mesure sa distance approchée avec les autres points. Il regroupe les points dont la distance est inférieure ou égale à T 1 dans une Canopy (cluster). Il supprime de l'ensemble principal tous les points dont la distance est inférieure ou égale à T2. Ainsi, les points très proches du centroïde ne sont pas traités. L'algorithme choisit ensuite un deuxième centroïde parmi les points de l'ensemble principal. l'algorithme continue jusqu'à ce que l'ensemble initial soit vide, accumulant ainsi un ensemble de clusters, chacun d'entre eux contenant un ou plusieurs point(s). Un point donné peut se trouver dans plus d'un cluster.

Ce type de clustering est souvent utilisé comme étape initiale au sein de techniques de clustering plus rigoureuses, comme le clustering K-Means. En commençant par un clustering de Canopies, le nombre de mesures de distances plus chères peut être considérablement réduit en ignorant des points hors des Canopies initiales.

K-Means : il classifie un ensemble de données en un nombre de clusters que vous définissez. L'algorithme choisit k points aléatoires utilisés comme centroïde dans k clusters.

L'algorithme associe ensuite chaque point de données appartenant à un ensemble de données au centre du cluster le plus proche.

Fuzzy K-Means : également appelé Fuzzy C-Means. Cet algorithme appartient à la famille des algorithmes de logique floue. Il fonctionne comme l'algorithme K-Means mais calcule les centres des clusters, à l'aide des probabilités qu'a un point d'appartenir à plusieurs clusters.

Distance measure

Sélectionnez dans la liste le type de mesure à utiliser pour le clustering :

Euclidean : définit la distance "ordinaire" entre deux points, comme si elle était mesurée par une règle.

Manhattan : définit la distance comme le chemin parcouru sur une grille entre deux points.

Chebyshev : définit la distance maximale entre deux vecteurs pris sur l'une des dimensions.

Cosine : Elle utilise le cosinus de l'angle entre les deux vecteurs représentant les points à comparer.

Canopy threshold1

Seuil de distance T1 utilisé pour l'algorithme Canopy.

Canopy threshold2

Seuil de distance T2 utilisé pour l'algorithme Canopy.

Number of clusters

Saisissez le nombre maximum de clusters pouvant être générés par un algorithme de clustering. Certains clusters peuvent ne pas contenir de données.

Max iterations

Saisissez le nombre maximum d'itérations à effectuer pour un algorithme de clustering.

Convergence delta

Saisissez un taux de convergence pour l'algorithme. Il doit être entre 0.0 et 1.0. Plus le taux est grand, plus l'algorithme est rapide, mais moins les résultats sont précis.

Fuzziness

Saisissez le paramètre d'approximation pour l'algorithme Fuzzy K-Means. Il doit être supérieur ou égal à 1.0.

Lorsque le paramètre d'approximation est proche de 1, le centre du cluster le plus proche du point a un poids plus important que les autres et l'algorithme est similaire à l'algorithme K-Means.

Global Variables

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Le tMahoutClustering est déprécié. Vous devez utiliser une JDK 7 pour exécuter correctement les Jobs migrés contenant un tMahoutClustering. Si vous devez exécuter des algorithmes de clustering, il est recommandé de créer un Job Spark Batch et d'utiliser un tKMeansModel à la place, dans ce Job.