Configurer le processus de clustering - 6.5

Machine Learning

Version
6.5
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning

Procédure

  1. Double-cliquez sur le tMahoutClustering pour ouvrir sa vue Component.
  2. Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton [...] à côté du champ Edit Schema et décrivez la structure des données dans le fichier d'entrée.
  3. Ajoutez huit lignes au schéma et configurez les données d'entrée comme dans la capture d'écran.
    Ce composant contient une colonne en lecture seule, clusterID.
  4. Cliquez sur OK.
  5. Dans la zone File Configuration :
    • Cliquez sur le bouton [...] à côté du champ Input HDFS file et parcourez votre système Hadoop jusqu'au fichier HDFS contenant les données numériques d'entrée que vous souhaitez mettre en clusters.

    • Configurez le séparateur de champs utilisé pour séparer les colonnes dans les données mises en clusters.

    • Dans la table Cluster columns, ajoutez des lignes à la table et cliquez dans chacune afin de sélectionner une colonne du schéma d'entrée.

  6. Dans la zone Clustering Configuration :
    • Dans la liste Clustering Type, sélectionnez l'algorithme à utiliser pour mettre en clusters les données numériques, Fuzzy K-means dans cet exemple.

    • Dans la liste Distance Measure, sélectionnez la mesure de distance à utiliser pour le processus de clustering.

    • Dans le champ Number of clusters, saisissez 3.

    • Laissez les valeurs dans les champs Max iterations et Convergence delta telles qu'elles sont.