Configurer des indicateurs système - 7.2

Guide de prise en main de Talend Real-Time Big Data Platform

Version
7.2
Language
Français (France)
Product
Talend Real-Time Big Data Platform
Module
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Content
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
Cette analyse de colonnes utilise des indicateurs prêts à l'emploi pour fournir des statistiques simples comme le nombre de lignes, de valeurs vides et de valeurs en doublon dans les colonnes Email et Phone.

Avant de commencer

  • Vous avez ouvert la perspective Profiling dans le Studio.

  • Vous avez créé une analyse de colonnes et défini la connexion à la base de données.

Procédure

  1. Dans la zone Data Preview dans l'éditeur d'analyse, cliquez sur Select indicators pour ouvrir la boîte de dialogue [Indicator Selection].
  2. Développez Simple Statistics et sélectionnez les indicateurs Row Count, Blank Count et Duplicate Count. Cliquez sur OK pour fermer l'assistant.

    Vous voulez consulter le nombre de lignes, de valeurs blanches et de valeurs en doublon dans les colonnes Email et Phone pour contrôler la cohérence des données.

    Des indicateurs sont ainsi ajoutés dans les colonnes qui se trouvent dans la zone Analyzed Columns.

  3. Cliquez sur l'icône à côté des indicateurs Duplicate Count et Blank Count et dans le champ Upper threshold, saisissez la valeur 0.

    Définir des limites dans les colonnes Email and Phone est très utile car le nombre des valeurs blanches et des valeurs en doublon est indiqué en rouge dans les résultats d'analyse.