Définir des indicateurs système ou personnalisés - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Prérequis : Une analyse de colonne(s) doit être ouverte dans l'éditeur de la perspective Profiling du Studio. Pour plus d'informations, consultez Définir les colonnes à analyser.

Procédure

  1. Dans la vue Data preview, dans l'éditeur d'analyse, cliquez sur Select indicators afin d'ouvrir la boîte de dialogue [Indicator Selection].
  2. Dans la boîte de dialogue [Indicator Selection] :
    Remarque : Il n'est pas très utile d'utiliser les statistiques de fréquence des modèles sur une colonne de type Date dans des bases de données, lors de l'exécution de l'analyse avec le moteur SQL. Aucune erreur de qualité de données n'est retournée par l'indicateur, car toutes les dates sont affichées selon un format. Pour plus d'informations concernant sur le profiling des colonnes de type Date dans Oracle, consultez la documentation sur Gestion des colonnes Date lors du profiling de colonnes dans Oracle (https://help.talend.com). Si vous attachez Date Pattern Frequency à une colonne de date dans votre analyse, vous pouvez générer une expression régulière de date à partir des résultats de l'analyse. Pour plus d'informations, consultez Générer une expression régulière à partir de la Table de Fréquence des modèles de date.
  3. Cliquez sur OK.
    Les indicateurs sélectionnés sont attachés aux colonnes analysées dans la vue Analyzed Columns.
    L'analyse de cet exemple fournit/calcule :
    • les statistiques simples de toutes les colonnes. Pour plus d'informations concernant ces indicateurs, consultez Statistiques simples,
    • les caractéristiques des champs textuels et le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans la colonne fullname. Pour plus d'informations, consultez Statistiques de texte et Statistiques avancées respectivement,
    • les modèles dans la colonne email pour afficher les modèles fréquents et rares, afin que vous puissiez identifier plus facilement les problèmes de qualité de données. Pour plus d'informations concernant ces indicateurs, consultez Statistiques de fréquence des modèles,
    • l'écart, l'écart interquartile, ainsi que les valeurs moyenne et médiane des données numériques dans la colonne total_sales. Pour plus d'informations concernant ces indicateurs, consultez Résumé statistique,
    • la fréquence des chiffres 1 à 9 dans les nombres relatives aux ventes, afin de détecter la fraude. Pour plus d'informations, consultez Détection de la fraude.