Analyse de données discrètes - 6.3

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Cette analyse vous permet d'analyser des données numériques. Elle crée une analyse de colonne dans laquelle des indicateurs, appropriés aux données numériques, sont assignés à la colonne par défaut.

Les données discrètes peuvent seulement prendre des valeurs particulières parmi un nombre potentiellement infini de valeurs. Les données continues sont l'opposé des données discrètes. Elles ne sont pas restreintes à des valeurs distinctes et définies, mais peuvent prendre n'importe quelle valeur d'un écart continu.

Cette analyse utilise l'indicateur Bin Frequency que vous devez configurer pour convertir des données continues en intervalles discrets, selon vos besoins.

Prérequis : Au moins une connexion à une base de données doit avoir été configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à une base de données.

Définir l'analyse

  1. Dans la vue DQ Repository, développez Metadata et parcourez l'arborescence jusqu'à la colonne numérique à analyser.

  2. Cliquez-droit sur la colonne numérique et sélectionnez Column Analysis > Discrete data Analysis.

    Dans cet exemple, vous souhaitez convertir l'âge des clients en un intervalle discret, ou écart de valeurs d'âges.

    L'assistant [New Analysis] s'ouvre.

  3. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  4. Configurez les métadonnées de l'analyse et cliquez sur Finish.

    L'analyse s'ouvre dans l'éditeur d'analyse et les indicateurs Simple Statistics et Bin Frequency sont automatiquement assignés à la colonne numérique.

  5. Double-cliquez sur l'indicateur Bin Frequency pour ouvrir la boîte de dialogue [Indicator settings].

  6. Configurez les valeurs minimale et maximale de l'intervalle et le nombre d'intervalles dans les champs correspondants.

    Si le nombre d'intervalles est configuré à 0, aucun intervalle n'est créé. L'indicateur calcule la fréquence de chaque valeur de la colonne.

  7. Cochez la case Set ranges manually.

    Les quatre champs en lecture seule dans la partie inférieure de la boîte de dialogue [Create Bins] vous montrent les données utilisées par Tableau pour suggérer une taille d'intervalle. Vous pouvez également considérer ces valeurs si vous souhaitez configurer la taille d'un intervalle manuellement.

    Les données numériques continues sont agrégées en intervalles discrets. Quatre écarts sont listés dans la table, avec la taille suggérée de l'intervalle. La valeur minimale est le début du premier intervalle et la valeur maximale est la fin du dernier intervalle. La taille de chaque intervalle est déterminée en divisant la différence entre la valeur la plus petite et la valeur la plus grande par le nombre d'intervalles.

    Vous pouvez toujours modifier ces valeurs si vous souhaitez configurer manuellement la taille d'un intervalle. La valeur dans le champ number of bins est automatiquement mise à jour avec le nouveau nombre d'écarts.

Exécuter l'analyse et accéder aux résultats détaillés de l'analyse

  1. Exécutez l'analyse.

    L'éditeur passe à la vue Analysis Results.

    L'analyse crée, à partir d'un écart de valeurs d'âges infini et continu, des écarts d'âges avec un ensemble de valeurs possibles finies et discrètes.

  2. Cliquez-droit sur une ligne de données dans les tables ou graphiques de résultats, le premier âge, dans cet exemple et sélectionnez View rows pour accéder à une vue des données analysées.

    L'éditeur SQL s'ouvre et liste tous les clients dont l'âge est compris entre 28 et 39.