Agrégation de données à l'aide de diagrammes - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

L'onglet Chart (Diagramme) affiche une représentation graphique de vos données. Cet onglet permet également d'agréger des données et de prévisualiser des statistiques intéressantes.

L'agrégation de données dans Talend Cloud Data Preparation vous permet de rassembler facilement les informations de deux colonnes pour réaliser une analyse statistique. Vous pouvez sélectionner une première colonne et comparer ses valeurs numériques sum, max, min ou average avec celles de la seconde colonne. Le diagramme affiche ensuite des statistiques plus détaillées que celles affichées par défaut.

Dans cet exemple, vous faites partie d'une entreprise de distribution en ligne et le jeu de données sur lequel vous travaillez contient des informations sur les clients, telles que leur âge, leur sexe et leur nombre d'achats. Vous allez utiliser l'onglet Chart pour prévisualiser rapidement le nombre moyen d'achats en fonction de la tranche d'âge de vos clients.

Procédure

  1. Cliquez sur l'en-tête de la colonne qui servira de base pour l'agrégation, Age group dans cet exemple.
    Un diagramme montrant le nombre d'occurrences pour chaque tranche d'âge s'affiche dans la zone de profilage des données.
  2. Dans l'onglet Chart, cliquez sur les options d'affichage et configurez Row count par défaut.
  3. Dans la liste déroulante Column, sélectionnez la colonne Purchases.
    Cette colonne contient les informations que vous souhaitez lier aux tranches d'âge. La liste déroulante affiche toutes les colonnes compatibles pour l'agrégation, c'est-à-dire toutes les colonnes contenant des données numériques, possédant le type sémantique integer ou decimal.
  4. Dans la liste déroulante Aggregation, sélectionnez Average.
  5. Cliquez sur OK.

Résultats

L'onglet Chart affiche désormais le nombre moyen d'achats pour chaque tranche d'âge. Vous pouvez voir par exemple que la tranche 18-25 est celle qui passe le plus de commandes. Placez votre curseur sur les barres horizontales pour voir la moyenne exacte pour chaque groupe d'enregistrement.

Grâce à ces statistiques, vous avez rapidement obtenu un meilleur aperçu de vos données, et vous pouvez réaliser d'autres opérations d'agrégation en comparant par exemple le nombre total d'achats en fonction du sexe de vos clients, ou toute autre catégorie de votre jeu de données.

Pour retirer les informations d'agrégation des diagrammes, cliquez sur Average Purchases > Remove.