Accéder au contenu principal Passer au contenu complémentaire

Analyse de données discrètes

Cette analyse vous permet d'analyser des données numériques. Elle crée une analyse de colonne dans laquelle des indicateurs, appropriés aux données numériques, sont assignés à la colonne par défaut.

Les données discrètes peuvent seulement prendre des valeurs particulières parmi un nombre potentiellement infini de valeurs. Les données continues sont l'opposé des données discrètes.

Cette analyse utilise l'indicateur Bin Frequency que vous devez configurer pour convertir des données continues en intervalles discrets, selon vos besoins.

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling du Studio Talend. Pour plus d'informations, consultez Se connecter à une base de données.

Définir l'analyse de données discrètes

Procedure

  1. Dans la vue DQ Repository, développez Metadata et parcourez l'arborescence jusqu’à la colonne numérique à analyser.
  2. Cliquez-droit sur la colonne numérique et sélectionnez Column Analysis > Discrete data Analysis.
    Dans cet exemple, vous souhaitez convertir l'âge des clients en un intervalle discret, ou écart de valeurs d'âges.
    L'assistant [New Analysis] s'ouvre.
  3. Dans le champ Name, saisissez un nom pour l'analyse.
    Note InformationsImportant:

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  4. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    L'analyse s'ouvre dans l'éditeur d'analyse et les indicateurs Simple Statistics et Bin Frequency sont automatiquement assignés à la colonne numérique.
  5. Double-cliquez sur l'indicateur Bin Frequency pour ouvrir la boîte de dialogue [Indicator settings].
    Vue d'ensemble de la boîte de dialogue Indicator Settings (Paramètres de l'indicateur).
  6. Configurez les valeurs minimale et maximale de l'intervalle et le nombre d'intervalles dans les champs correspondants.
    Si le nombre d'intervalles est configuré à 0, aucun intervalle n'est créé. L'indicateur calcule la fréquence de chaque valeur de la colonne.
  7. Cochez la case Set ranges manually.
    Les quatre champs en lecture seule dans la partie inférieure de la boîte de dialogue [Create Bins] vous montrent les données utilisées par Tableau pour suggérer une taille d'intervalle. Vous pouvez également considérer ces valeurs si vous souhaitez configurer la taille d'un intervalle manuellement.
    Les données numériques continues sont agrégées en intervalles discrets. Quatre écarts sont listés dans la table, avec la taille suggérée de l'intervalle. La valeur minimale est le début du premier intervalle et la valeur maximale est la fin du dernier intervalle. La taille de chaque intervalle est déterminée en divisant la différence entre la valeur la plus petite et la valeur la plus grande par le nombre d'intervalles.
    Vous pouvez toujours modifier ces valeurs si vous souhaitez configurer manuellement la taille d'un intervalle. La valeur dans le champ number of bins est automatiquement mise à jour avec le nouveau nombre d’écarts.

Exécuter l'analyse et accéder aux résultats détaillés de l'analyse

Procedure

  1. Exécutez l'analyse.
    L'éditeur passe à l'onglet Analysis Results (Résultats de l'analyse).
    Tableaux et graphiques pour les indicateurs Bin Frequency (Fréquence des intervalles) et Simple Statistics (Statistiques simples).
    L'analyse crée, à partir d'un écart de valeurs d'âges infini et continu, des écarts d'âges avec un ensemble de valeurs possibles finies et discrètes.
  2. Cliquez-droit sur une ligne de données dans les tables ou graphiques de résultats, le premier âge, dans cet exemple et sélectionnez View rows pour accéder à une vue des données analysées.
    Vue d'ensemble des données analysées depuis la perspective Data Explorer.
    L'éditeur SQL s'ouvre et liste tous les clients dont l'âge est compris entre 28 et 39.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.