Créer une analyse de table simple (Analyse d'un ensemble de colonnes)

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Vous pouvez analyser le contenu d'un ensemble de colonnes. Cet ensemble peut représenter une partie des colonnes de la table définie ou la table dans son ensemble.

L'analyse d'un ensemble de colonnes se concentre sur un ensemble de colonnes (enregistrement complet) et non sur des colonnes séparées, comme pour l'analyse de colonne(s). Les statistiques présentées dans les résultats de l'analyse (nombre de lignes, de valeurs distinctes, de valeurs uniques et de doublons) sont mesurées par rapport aux valeurs de toutes les données dans l'ensemble de données et n'analysent donc pas les valeurs séparément dans chaque colonne.

Avec le moteur Java, vous pouvez également appliquer des modèles sur chaque colonne. Le résultat de l'analyse donne le nombre d'enregistrements correspondant à tous les modèles sélectionnés. Pour plus d'informations, consultez Ajouter des modèles aux colonnes analysées.

Note

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s) sur des ensembles de données volumineux ou contenant de nombreux problèmes, il est recommandé de configurer une limite de taille de la mémoire allouée pour exécuter l'analyse, puisqu'il est possible d'avoir une erreur Java heap space. Pour plus d'informations, consultez Définir le seuil maximal de la mémoire.

Créer une analyse d'un ensemble de colonnes en utilisant des modèles

Ce type d'analyse fournit des statistiques simples concernant les enregistrements complets de l'ensemble de colonnes analysées et non sur le valeurs dans chaque colonne séparément. Pour plus d'informations concernant ces indicateurs de statistiques simples, consultez Statistiques simples.

Avec cette analyse, vous pouvez utiliser des modèles afin de valider les enregistrements complets par rapport à tous les modèles et obtenir un diagramme à une seule barre affichant le nombre de lignes correspondant à tous les modèles ("all").

Définir l'ensemble de colonnes à analyser

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Pour définir un ensemble de colonnes à analyser, procédez comme suit :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir column set analysis, sélectionnez Column Set Analysis puis cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse d'un ensemble de colonnes.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse de colonne(s) : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

Sélectionner l'ensemble de colonnes à analyser

  1. Développez le nœud DB connections,

  2. Parcourez l'arborescence jusqu'à la base de données de votre choix, sélectionnez les colonnes que vous souhaitez analyser et cliquez sur Finish pour fermer l'assistant [New Analysis].

    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analysis dans la vue DQ Repository, et l'éditeur d'analyse s'ouvre avec les données définies.

    Des données d'exemple sont affichées dans la zone Data Preview et les colonnes sélectionnées sont affichées dans la zone Analyzed Column de l'éditeur de l'analyse.

    Dans cet exemple, vous souhaitez analyser un ensemble de six colonnes dans la table customer : numéro de compte (account_num), études (education), e-mail (email), prénom (fname), nom de famille (Iname) et genre (gender). Les statistiques présentées dans les résultats d'analyse sont le nombre de lignes, de valeurs distinctes, de valeurs uniques et de valeurs en doublon s'appliquant sur tous les enregistrements (valeurs d'un ensemble de colonnes).

  3. Dans la zone Data preview, sélectionnez :

    Option

    Pour...

    New Connection

    ouvrir un assistant et créer ou modifier la connexion à la source de données depuis l'éditeur.

    Pour plus d'informations concernant la création d'une connexion à des sources de données, consultez Se connecter à une base de données et Se connecter à un fichier.

    La liste Connection en haut de la zone liste toutes les connexions créées dans le Studio.

    Select Columns

    ouvrir la boîte de dialogue [Column Selection] dans laquelle vous pouvez sélectionner les colonnes à analyser ou modifier la sélection des colonnes listées dans la table.

    Dans la boîte de dialogue ouverte, vous pouvez filtrer la liste des tables ou colonnes en utilisant respectivement les champs Table filter ou Column filter.

    n first rows

    ou

    n random rows

    lister dans la table les N premiers enregistrements de données des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.

    Refresh Data

    afficher les données dans les colonnes sélectionnées selon les critères définis.

    Run with sample data

    exécuter l'analyse uniquement sur le jeu de données d'exemple dans le champ Limit.

  4. Dans le champ Limit, configurez le nombre d'enregistrements de données que vous souhaitez afficher dans la table et utiliser comme données d'exemple.

  5. Si vous cliquez-droit sur l'une des colonnes affichées dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

  6. Vous pouvez utiliser les boutons Supprimer, Move Up (déplacer vers le haut) ou Move Down (déplacer vers le bas) afin de gérer les colonnes analysées.

Ajouter des modèles aux colonnes analysées

Vous pouvez ajouter des modèles à une ou plusieurs colonne(s) analysée(s), afin de valider l'enregistrement complet (toutes les colonnes) par rapport à des modèles, et non valider chaque colonne par rapport à un modèle spécifique, comme c'est le cas dans l'analyse de colonnes. Le graphique de résultats est un graphique à une seule barre, pour la totalité des modèles utilisés. Ce graphique montre le nombre de lignes correspondant à tous ("all") les modèles.

Avertissement

Avant de pouvoir utiliser un modèle spécifique dans une analyse d'un ensemble de colonnes, vous devez définir manuellement les paramètres des modèles pour Java, s'ils n'existent pas encore, dans la définition des modèles. Sinon, un message d'avertissement s'affiche et vous demande de définir l'expression régulière Java.

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser.

Pour ajouter des modèles à l'analyse d'un ensemble de colonnes, procédez comme suit :

  1. Dans la zone Analyzed Columns de l'éditeur, cliquez sur l'icône à côté de chacune des colonnes que vous souhaitez valider par rapport à un modèle spécifique.

    La boîte de dialogue [Pattern Selector] s'affiche.

    Vous ne pouvez ajouter des expressions régulières qu'aux colonnes analysées.

    Vous pouvez déposer l'expression régulière directement à partir du dossier Patterns de la vue DQ Repository sur le nom de la colonne dans l'éditeur d'analyse de colonne(s).

    Avertissement

    Si aucune expression Java n'existe pour le modèle que vous souhaitez ajouter, un message d'avertissement s'affiche et vous demande d'ajouter la définition du modèle pour Java. Cliquez sur Yes (Oui) afin d'ouvrir l'éditeur de modèle et d'ajouter l'expression régulière Java, puis procédez à l'ajout du modèle aux colonnes analysées.

    Dans cet exemple, ajoutez également un modèle correspondant à chaque colonne analysée, afin de valider les données dans ces colonnes, par rapport aux modèles sélectionnés. Le graphique des résultats affichera le pourcentage des valeurs de correspondance, les valeurs respectant la totalité des modèles utilisés.

  2. Dans la boîte de dialogue [Pattern Selector], parcourez le dossier jusqu'à l'expression régulière que vous souhaitez ajouter à la colonne sélectionnée.

  3. Cochez la(es) case(s) des expression(s) régulière(s) que vous souhaitez ajouter à la colonne sélectionnée.

  4. Cliquez sur OK.

    L'expression (les expressions) régulière(s) s'affiche(nt) sous les colonnes analysées dans la liste Analyzed Columns, et l'indicateur All Match s'affiche dans la liste Indicators de la vue Indicators.

Finaliser et exécuter l'analyse d'un ensemble de colonnes

Avant d'exécuter l'analyse de cet ensemble de colonne, il vous reste à configurer les paramètres des indicateurs, le filtre sur les données et les paramètres d'analyse.

Prérequis : Une analyse d'un ensemble de colonnes doit déjà avoir été configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser dans un fichier délimité et Ajouter des modèles aux colonnes analysées.

  1. Dans la zone Indicators de l'éditeur d'analyse, cliquez sur l'icône pour ouvrir une boîte de dialogue dans laquelle vous pouvez configurer les options de chaque indicateur selon vos besoins.

    Pour plus d'informations concernant la gestion des indicateurs, consultez Indicateurs.

    Les indicateurs représentant les statistiques simple sont joints par défaut à ce type d'analyse. Pour plus d'informations concernant les indicateurs de statistiques simples, consultez Statistiques simples.

  2. Dans la vue Data Filter, saisissez une clause "WHERE" SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

  3. Dans la zone Analysis Parameters :

    • Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.

      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.

    • Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.

      • Si vous sélectionnez le moteur Java, la case Store data est cochée par défaut et ne peut être décochée. Une fois l'analyse exécutée, les résultats du profiling sont disponibles localement. Vous pouvez les explorer via la vue Analysis Results > Data. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.

        Exécuter l'analyse avec le moteur Java utilise de l'espace disque car toutes les données sont récupérées et stockées localement. Si vous souhaitez libérer de l'espace, vous pouvez supprimer les données stockées dans le répertoire suivant du studio : Talend-Studio>workspace>project_name>Work_MapDB.

      • Si vous sélectionnez le moteur SQL, vous pouvez utiliser la case Store data pour décider de stocker localement les données analysées et y accéer via la vue Analysis Results > Data.

        Note

        Si les données en cours d'analyse sont très volumineuses, il est recommandé de ne pas cocher la case Store data pour ne pas stocker les résultats à la fin des calculs de l'analyse.

  4. Si vous avez défini des variables de contexte dans la vue Contexts, dans l'éditeur d'analyse :

    • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte afin de filtrer les données et décider du nombre de connexions concourantes par analyse, respectivement.

    • Dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.

    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

  5. Cliquez sur l'icône de sauvegarde en haut de l'éditeur d'analyse, puis appuyez sur F6 pour exécuter l'analyse.

    L'éditeur d'analyse passe à la vue Analysis Results dans laquelle vous pouvez lire les résultats d'analyse dans des tables et des diagrammes. Les résultats graphiques fournissent les statistiques simples sur les enregistrements complets de l'ensemble de colonnes analysées et non sur les valeurs au sein de chaque colonne séparément.

    Lorsque vous utilisez des modèles afin de rapprocher le contenu de l'ensemble de colonnes, un autre diagramme est affiché pour illustrer les résultats qui correspondent et qui ne correspondent pas par rapport à la totalité des modèles utilisés.

  6. Dans la table Simple Statistics, cliquez-droit sur un résultat d'indicateur et sélectionnez View Rows ou View Values.

    • Si vous exécutez l'analyse avec le moteur Java, une liste des données analysées est ouverte dans la perspective Profiling.

    • Si vous exécutez l'analyse avec le moteur SQL, une liste des données analysées est ouverte dans la perspective Data Explorer.

  7. Dans la table All Match, cliquez-droit sur la ligne de résultat et sélectionnez Generate an ETL job to handle rows.

    Un Job prêt à l'emploi est généré et ouvert dans la perspective Integration. Ce Job regroupe les lignes valides/invalides et les écrit dans deux fichiers séparés. Pour plus d'informations, consultez Récupérer les lignes correspondantes/non correspondantes.

    Note

    La table All Match est disponible uniquement lorsque vous exécutez l'analyse avec le moteur Java.

  8. Dans la vue Data, cliquez sur Filter Data pour filtrer les données valides/invalides selon les modèles utilisés.

    Vous pouvez filtrer les données uniquement lorsque vous exécutez l'analyse avec le moteur Java. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.

Filtrer des données par rapport à des modèles

Après avoir analysé un ensemble de colonnes par rapport à un groupe de modèles et avoir obtenu les résultats des lignes correspondant ou ne correspondant pas à tous ("all") les modèles, vous pouvez filtrer les données valides/invalides selon les modèles utilisés.

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Vous avez utilisé le moteur Java pour exécuter votre analyse.

Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser et Ajouter des modèles aux colonnes analysées.

Pour filtrer les résultats de l'analyse d'un ensemble de colonnes, procédez comme suit :

  1. Dans l'éditeur d'analyse, cliquez sur l'onglet Analysis Results en bas de l'éditeur, afin d'ouvrir la vue détaillée des résultats.

  2. Cliquez sur Data pour ouvrir la vue correspondante.

    Un tableau liste les données analysées dans les colonnes analysées.

  3. Cliquez sur le bouton Filter Data au-dessus du tableau.

    Une boîte de dialogue s'affiche et liste tous les modèles utilisés dans l'analyse d'un ensemble de colonnes.

  4. Cochez la case des modèles avec lesquels vous souhaitez filtrer les données.

  5. Sélectionnez une option d'affichage comme suit :

    Sélectionnez

    pour...

    All data

    afficher toutes les données analysées.

    matches

    afficher uniquement les données correspondant au modèle sélectionné.

    non-matches

    afficher les données ne correspondant pas au modèle sélectionné.

  6. Cliquez sur Finish pour fermer la boîte de dialogue.

    Dans cet exemple, les données sont filtrées par rapport au modèle Email Address. Seules les données ne correspondant pas sont affichées.

    Toute adresse e-mail ne correspondant pas au modèle sélectionné s'affiche en rouge. Chaque ligne de données contenant une valeur manquante s'affiche sur un fond rouge.

    Les boutons Previous et Next sous la table vous permettent de naviguer entre les différentes pages.

    Des boutons numérotés s'affichent sous la table pour accéder directement aux pages :

    • lorsque vous ouvrez la vue Data pour la première fois après avoir exécuté l'analyse,

    • si vous n'avez pas sélectionné de modèle dans la boîte de dialogue Filter Data, ou

    • si vous avez sélectionné All data comme option d'affichage, dans la boîte de dialogue Filter Data.