Préparer les caractéristiques pour KMeans - 6.5

Machine Learning

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le composant tModelEncoder pour ouvrir sa vue Component.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema et, du côté du tModelEncoder, dans la fenêtre de schéma, définissez le schéma en ajoutant une colonne nommée map, de type Vector.
  3. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue.
  4. Dans la table Transformations, ajoutez une ligne en cliquant sur le bouton [+], puis :
    1. Dans la colonne Output column, sélectionnez la colonne contenant les caractéristiques. Dans ce scénario, la colonne est map.
    2. Dans la colonne Transformation, sélectionnez l'algorithme à utiliser pour la transformation. Dans ce scénario, sélectionnez Vector assembler.
    3. Dans la colonne Parameters, saisissez les paramètres à personnaliser pour utilisation dans l'algorithme Vector assembler. Dans ce scénario, saisissez inputCols=latitude,longitude.

    Dans cette transformation, le tModelEncoder combine tous les vecteurs de caractéristiques en une seule colonne de caractéristiques.

  5. Double-cliquez sur le tKMeansModel pour ouvrir sa vue Component.
  6. Cochez la case Define a storage configuration component et sélectionnez le composant tHDFSConfiguration à utiliser.
  7. Dans la liste Vector to process, sélectionnez la colonne fournissant les vecteurs de caractéristiques à analyser. Dans ce scénario, sélectionnez map, qui combine toutes les caractéristiques.
  8. Cochez la case Save the model on file system et, dans le champ HDFS folder qui s'affiche, saisissez le chemin d'accès au répertoire à utiliser pour stocker le modèle généré.
  9. Dans le champ Number of cluster, saisissez le nombre d'arbres de décision que vous souhaitez que tKMeans construise. Vous devez essayer différents nombres pour exécuter le Job, afin de créer plusieurs fois le modèle de clustering. Après comparaison des résultats d'évaluation de chaque modèle créé à chaque exécution, vous pouvez décider du nombre à utiliser. Par exemple, saisissez 6.
    Vous devez écrire vous-même le code d'évaluation.
  10. Dans la liste Initialization function, sélectionnez Random. Généralement, ce mode est utilisé pour les jeux de données simples.
  11. Laissez les autres paramètres tels qu'ils sont.