Définir l'analyse de données discrètes - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Procédure

  1. Dans la vue DQ Repository, développez Metadata et parcourez l'arborescence jusqu’à la colonne numérique à analyser.
  2. Cliquez-droit sur la colonne numérique et sélectionnez Column Analysis > Discrete data Analysis.
    Dans cet exemple, vous souhaitez convertir l'âge des clients en un intervalle discret, ou écart de valeurs d'âges.
    L'assistant [New Analysis] s'ouvre.
  3. Dans le champ Name, saisissez un nom pour l'analyse.
    Important :

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  4. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    L'analyse s'ouvre dans l'éditeur d'analyse et les indicateurs Simple Statistics et Bin Frequency sont automatiquement assignés à la colonne numérique.
  5. Double-cliquez sur l'indicateur Bin Frequency pour ouvrir la boîte de dialogue [Indicator settings].
    Vue d'ensemble de la boîte de dialogue Indicator Settings (Paramètres de l'indicateur).
  6. Configurez les valeurs minimale et maximale de l'intervalle et le nombre d'intervalles dans les champs correspondants.
    Si le nombre d'intervalles est configuré à 0, aucun intervalle n'est créé. L'indicateur calcule la fréquence de chaque valeur de la colonne.
  7. Cochez la case Set ranges manually.
    Les quatre champs en lecture seule dans la partie inférieure de la boîte de dialogue [Create Bins] vous montrent les données utilisées par Tableau pour suggérer une taille d'intervalle. Vous pouvez également considérer ces valeurs si vous souhaitez configurer la taille d'un intervalle manuellement.
    Les données numériques continues sont agrégées en intervalles discrets. Quatre écarts sont listés dans la table, avec la taille suggérée de l'intervalle. La valeur minimale est le début du premier intervalle et la valeur maximale est la fin du dernier intervalle. La taille de chaque intervalle est déterminée en divisant la différence entre la valeur la plus petite et la valeur la plus grande par le nombre d'intervalles.
    Vous pouvez toujours modifier ces valeurs si vous souhaitez configurer manuellement la taille d'un intervalle. La valeur dans le champ number of bins est automatiquement mise à jour avec le nouveau nombre d’écarts.