Le composant tMahoutClustering dans des Jobs Map/Reduce Talend - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à l'une des solutions Big Data de Talend et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Dans un Job Map/Reduce Talend, le tMahoutClustering, ainsi que le Job complet utilisant ce composant, génère du code Map/Reduce natif. Cette section présente les propriétés du tMahoutClustering lorsqu'il est utilisé dans un Job Map/Reduce. Pour plus d'informations concernant un Job Map/Reduce Talend, consultez le Guide de prise en main de Talend Big Data.

Famille du composant

Map Reduce

Ce composant est déprécié et masqué par défaut dans la Palette mais il continue à fonctionner dans vos Jobs lorsque vous les importez d'anciennes versions. Vous devez cependant utiliser une JDK 7 pour pouvoir exécuter correctement les Jobs migrés contenant un tMahoutClustering.

Pour plus d'informations concernant l'affichage des composants masqués dans la Palette, consultez le Guide utilisateur du Studio Talend.

Il est recommandé d'utiliser le composant Spark Batch tKMeansModel afin de remplacer le tMahoutClustering pour exécuter des algorithmes de clustering sur des ensembles de donnés.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie du tMahoutClustering contient une colonne en lecture seule, ClusterID.

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

File configuration

Input HDFS file

Parcourez votre système jusqu'au fichier HDFS contenant les données numériques à traiter.

 

Field separator

Saisissez un caractère, une chaîne de caractères ou une expression régulière pour séparer les champs dans les données d'entrée et de sortie.

 

Cluster columns

Dans la colonne Input Column, sélectionnez la (les) colonne(s) du flux principal sur laquelle (lesquelles) définir des algorithmes. Ces colonnes sont utilisées pour calculer les clusters.

Vous pouvez ajouter uniquement des colonnes numériques à cette table.

Clustering Configuration

Clustering type

Sélectionnez dans la liste l'algorithme de clustering à utiliser :

Canopy : cet algorithme utilise une métrique de distance approchée et deux seuils (Threshold) de distance T 1 et T 2, où T 1 > T 2. Il commence avec un ensemble de points de données dans n'importe quel ordre, prend un point appelé centroïde du cluster et mesure sa distance approchée avec les autres points. Il regroupe les points dont la distance est inférieure ou égale à T 1 dans une Canopy (cluster). Il supprime de l'ensemble principal tous les points dont la distance est inférieure ou égale à T2. Ainsi, les points très proches du centroïde ne sont pas traités. L'algorithme choisit ensuite un deuxième centroïde parmi les points de l'ensemble principal. l'algorithme continue jusqu'à ce que l'ensemble initial soit vide, accumulant ainsi un ensemble de clusters, chacun d'entre eux contenant un ou plusieurs point(s). Un point donné peut se trouver dans plus d'un cluster.

Ce type de clustering est souvent utilisé comme étape initiale au sein de techniques de clustering plus rigoureuses, comme le clustering K-Means. En commençant par un clustering de Canopies, le nombre de mesures de distances plus chères peut être considérablement réduit en ignorant des points hors des Canopies initiales.

K-Means : il classifie un ensemble de données en un nombre de clusters que vous définissez. L'algorithme choisit k points aléatoires utilisés comme centroïde dans k clusters.

L'algorithme associe ensuite chaque point de données appartenant à un ensemble de données au centre du cluster le plus proche.

Fuzzy K-Means : également appelé Fuzzy C-Means. Cet algorithme appartient à la famille des algorithmes de logique floue. Il fonctionne comme l'algorithme K-Means mais calcule les centres des clusters, à l'aide des probabilités qu'a un point d'appartenir à plusieurs clusters.

 

Distance measure

Sélectionnez dans la liste le type de mesure à utiliser pour le clustering :

Euclidean : définit la distance "ordinaire" entre deux points, comme si elle était mesurée par une règle.

Manhattan : définit la distance comme le chemin parcouru sur une grille entre deux points.

Chebyshev : définit la distance maximale entre deux vecteurs pris sur l'une des dimensions.

Cosine : Elle utilise le cosinus de l'angle entre les deux vecteurs représentant les points à comparer.

 

Canopy threshold1

Seuil de distance T1 utilisé pour l'algorithme Canopy.

 

Canopy threshold2

Seuil de distance T2 utilisé pour l'algorithme Canopy.

 

Number of clusters

Saisissez le nombre maximum de clusters pouvant être générés par un algorithme de clustering. Certains clusters peuvent ne pas contenir de données.

 

Max iterations

Saisissez le nombre maximum d'itérations à effectuer pour un algorithme de clustering.

 

Convergence delta

Saisissez un taux de convergence pour l'algorithme. Il doit être entre 0.0 et 1.0. Plus le taux est grand, plus l'algorithme est rapide, mais moins les résultats sont précis.

 

Fuzziness

Saisissez le paramètre d'approximation pour l'algorithme Fuzzy K-Means. Il doit être supérieur ou égal à 1.0.

Lorsque le paramètre d'approximation est proche de 1, le centre du cluster le plus proche du point a un poids plus important que les autres et l'algorithme est similaire à l'algorithme K-Means.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Le composant tMahoutClustering doit être le composant d'entrée du Job. Vous pouvez sélectionner un fichier HDFS depuis l'onglet Basic settings.