Agréger et calculer les données de sortie - 7.3

Apprentissage automatique (Machine learning)

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Machine Learning
Gouvernance de données > Systèmes tiers > Composants Machine Learning
Qualité et préparation de données > Systèmes tiers > Composants Machine Learning
Last publication date
2024-02-22

Procédure

  1. Double-cliquez sur le premier tAggregateRow pour afficher sa vue Basic settings et configurer ses propriétés.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema et définissez le flux de sortie.
  3. Déplacez les colonnes du schéma d'entrée dans le schéma de sortie puis utilisez le bouton [+] pour ajouter une colonne au schéma de sortie. Nommez-la count.
    Cela fait, cliquez sur OK pour fermer la boîte de dialogue.
  4. Dans la section Group by, cliquez sur le bouton [+] pour ajouter autant de lignes que nécessaire. Vous pouvez définir les valeurs de groupement.
    • Cliquez dans la première ligne Output column et sélectionnez la colonne de sortie qui contiendra les données regroupées, la colonne region dans cet exemple.

    • Cliquez dans la première ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle vous souhaitez collecter les valeurs à regrouper, la colonne region dans cet exemple.

  5. Dans la zone Operations, cliquez sur le bouton [+] pour ajouter des lignes aux colonnes qui contiendront les données regroupées. Vous pouvez définir ici les valeurs de calcul.
    • Cliquez dans la ligne Output column et sélectionnez dans la liste la colonne de destination, la colonne count dans cet exemple.

    • Cliquez dans la ligne de la colonne Function et sélectionnez l'une des opérations listées.

      Dans cet exemple, vous allez compter le nombre de clients, selon leur région, à lister une fois dans la colonne de sortie.

    • Cliquez dans la ligne Input column position et sélectionnez la colonne d'entrée à partir de laquelle collecter les valeurs à regrouper, la colonne region dans cet exemple.

  6. Double-cliquez sur le second tAggregateRow et définissez ses propriétés simples afin de compter le nombre de clients dans le second cluster, à partir de la colonne channel.