Regrouper les informations extraites - 7.0

Guide de prise en main de Talend Real-Time Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Procédure

  1. Double-cliquez sur le tAggregateRow pour ouvrir sa vue Component. Ce composant vous permet de voir quelle est l'activité la plus populaire dans les messages reçus.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  3. Du côté de la sortie, à droite, cliquez trois fois sur le bouton [+] pour ajouter trois lignes. Dans la colonne Column, renommez-les respectivement activity, gender et popularity.
  4. Dans la colonne Type de la ligne popularity du schéma de sortie, sélectionnez Double.
  5. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  6. Dans la table Group by, ajoutez deux lignes en cliquant deux fois sur le bouton [+] et en configurant ces lignes comme suit afin de regrouper les données de sortie.
    • Dans la colonne Output column, sélectionnez les colonnes du schéma de sortie à utiliser comme conditions pour grouper les données de sortie. Dans cet exemple, mes colonnes à utiliser sont activityactivity et gendergender.

    • Dans la colonne Input column position, sélectionnez les colonnes du schéma d'entrée permettant d'envoyer les données aux colonnes de sortie sélectionnées dans la colonne Output column. Dans ce scénario, ces colonnes sont activityactivity et gendergender.

  7. Dans la table Operations, ajoutez une ligne en cliquant sur le bouton [+] et configurez-la comme suit afin de calculer la popularité de chaque activité :
    • dans la colonne Output column, sélectionnez la colonne du schéma de sortie qui contiendra les résultats calculés. Dans ce scénario, la colonne est popularitypopularity.

    • dans la colonne Function, sélectionnez la fonction à utiliser pour traiter les données entrantes. Dans ce scénario, sélectionnez count. La fonction compte la fréquence de chaque activité dans les messages reçus.

    • dans la colonne Input column position, sélectionnez la colonne du schéma d'entrée afin de fournir les données à traiter. Dans ce scénario, la colonne est activityactivity.

  8. Appuyez sur F6 pour exécuter le Job.

Résultats

Cela fait, la vue Run s'ouvre automatiquement et vous pouvez y vérifier les résultats d'exécution.

Vous pouvez constater que Drink est l'activité la plus populaire dans les messages avec trois occurrences parmi les personnes de sexe masculin M et une occurrence parmi les personnes de sexe féminin F.

Le Topology Storm continue à s'exécuter, attendant l'arrivée de messages dans le broker de messages Kafka, jusqu'à ce que vous arrêtiez le Job. Dans ce scénario, puisque la case Kill topology on quitting Talend Job est cochée, le Topology Storm est arrêté et supprimé du cluster lorsque le Job est arrêté.