Agrégation de données à l'aide de diagrammes - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

L'onglet Chart (Diagramme) affiche une représentation graphique de vos données. Cet onglet permet également d'agréger des données et de prévisualiser des statistiques intéressantes.

L'agrégation de données dans Talend Data Preparation vous permet de rassembler facilement les informations de deux colonnes pour réaliser une analyse statistique. Vous pouvez sélectionner une première colonne et comparer ses valeurs numériques sum, max, min ou average avec celles de la seconde colonne. Le diagramme affiche ensuite des statistiques plus détaillées que celles affichées par défaut.

Dans cet exemple, vous faites partie d'une entreprise de distribution en ligne et le jeu de données sur lequel vous travaillez contient des informations sur les clients, telles que leur âge, leur sexe et leur nombre d'achats. Vous allez utiliser l'onglet Chart pour prévisualiser rapidement le nombre moyen d'achats en fonction de la tranche d'âge de vos clients.

Procédure

  1. Cliquez sur l'en-tête de la colonne qui servira de base pour l'agrégation, Age group dans cet exemple.
    Un diagramme montrant le nombre d'occurrences pour chaque tranche d'âge s'affiche dans la zone de profilage des données.
  2. Dans l'onglet Chart, cliquez sur les options d'affichage et configurez Row count par défaut.
  3. Dans la liste déroulante Column, sélectionnez la colonne Purchases.
    Cette colonne contient les informations que vous souhaitez lier aux tranches d'âge. La liste déroulante affiche toutes les colonnes compatibles pour l'agrégation, c'est-à-dire toutes les colonnes contenant des données numériques, possédant le type sémantique integer ou decimal.
  4. Dans la liste déroulante Aggregation, sélectionnez Average.
  5. Cliquez sur OK.

Résultats

L'onglet Chart affiche désormais le nombre moyen d'achats pour chaque tranche d'âge. Vous pouvez voir par exemple que la tranche 18-25 est celle qui passe le plus de commandes. Placez votre curseur sur les barres horizontales pour voir la moyenne exacte pour chaque groupe d'enregistrement.

Grâce à ces statistiques, vous avez rapidement obtenu un meilleur aperçu de vos données, et vous pouvez réaliser d'autres opérations d'agrégation en comparant par exemple le nombre total d'achats en fonction du sexe de vos clients, ou toute autre catégorie de votre jeu de données.

Pour retirer les informations d'agrégation des diagrammes, cliquez sur Average Purchases > Remove.