Définir l'analyse de données discrètes - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Procédure

  1. Dans la vue DQ Repository, développez Metadata et parcourez l'arborescence jusqu’à la colonne numérique à analyser.
  2. Cliquez-droit sur la colonne numérique et sélectionnez Column Analysis > Discrete data Analysis.
    Dans cet exemple, vous souhaitez convertir l'âge des clients en un intervalle discret, ou écart de valeurs d'âges.
    L'assistant [New Analysis] s'ouvre.
  3. Dans le champ Name, saisissez un nom pour l'analyse.
    Remarque :

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers.

  4. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    L'analyse s'ouvre dans l'éditeur d'analyse et les indicateurs Simple Statistics et Bin Frequency sont automatiquement assignés à la colonne numérique.
  5. Double-cliquez sur l'indicateur Bin Frequency pour ouvrir la boîte de dialogue [Indicator settings].
  6. Configurez les valeurs minimale et maximale de l'intervalle et le nombre d'intervalles dans les champs correspondants.
    Si le nombre d'intervalles est configuré à 0, aucun intervalle n'est créé. L'indicateur calcule la fréquence de chaque valeur de la colonne.
  7. Cochez la case Set ranges manually.
    Les quatre champs en lecture seule dans la partie inférieure de la boîte de dialogue [Create Bins] vous montrent les données utilisées par Tableau pour suggérer une taille d'intervalle. Vous pouvez également considérer ces valeurs si vous souhaitez configurer la taille d'un intervalle manuellement.
    Les données numériques continues sont agrégées en intervalles discrets. Quatre écarts sont listés dans la table, avec la taille suggérée de l'intervalle. La valeur minimale est le début du premier intervalle et la valeur maximale est la fin du dernier intervalle. La taille de chaque intervalle est déterminée en divisant la différence entre la valeur la plus petite et la valeur la plus grande par le nombre d'intervalles.
    Vous pouvez toujours modifier ces valeurs si vous souhaitez configurer manuellement la taille d'un intervalle. La valeur dans le champ number of bins est automatiquement mise à jour avec le nouveau nombre d’écarts.