Créer une analyse de table simple (Analyse d'un ensemble de colonnes) - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez analyser le contenu d'un ensemble de colonnes. Cet ensemble peut représenter une partie des colonnes de la table définie ou la table dans son ensemble.

L'analyse d'un ensemble de colonnes se concentre sur un ensemble de colonnes (enregistrement complet) et non sur des colonnes séparées, comme pour l'analyse de colonne(s). Les statistiques présentées dans les résultats de l'analyse (nombre de lignes, de valeurs distinctes, de valeurs uniques et de doublons) sont mesurées par rapport aux valeurs de toutes les données dans l'ensemble de données et n'analysent donc pas les valeurs séparément dans chaque colonne.

Avec le moteur Java, vous pouvez également appliquer des modèles sur chaque colonne. Le résultat de l'analyse donne le nombre d'enregistrements correspondant à tous les modèles sélectionnés. Pour plus d'informations, consultez Ajouter des modèles aux colonnes analysées.

Note

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s) sur des ensembles de données volumineux ou contenant de nombreux problèmes, il est recommandé de configurer une limite de taille de la mémoire allouée pour exécuter l'analyse, puisqu'il est possible d'avoir une erreur Java heap space. Pour plus d'informations, consultez Définir le seuil maximal de la mémoire.

Créer une analyse d'un ensemble de colonnes en utilisant des modèles

Ce type d'analyse fournit des statistiques simples concernant les enregistrements complets de l'ensemble de colonnes analysées et non sur le valeurs dans chaque colonne séparément. Pour plus d'informations concernant ces indicateurs de statistiques simples, consultez Statistiques simples.

Avec cette analyse, vous pouvez utiliser des modèles afin de valider les enregistrements complets par rapport à tous les modèles et obtenir un diagramme à une seule barre affichant le nombre de lignes correspondant à tous les modèles ("all").

Définir l'ensemble de colonnes à analyser

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à une base de données.

Pour définir un ensemble de colonnes à analyser, procédez comme suit :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir column set analysis, sélectionnez Column Set Analysis puis cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse d'un ensemble de colonnes.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse de colonne(s) : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

Sélectionner l'ensemble de colonnes à analyser

  1. Développez le nœud DB connections,

  2. Parcourez l'arborescence jusqu'à la base de données de votre choix, sélectionnez les colonnes que vous souhaitez analyser et cliquez sur Finish pour fermer l'assistant [New Analysis].

    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analysis dans la vue DQ Repository, et l'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.

  3. Dans la vue Analyzed Columns, cliquez sur le lien Select columns to analyze pour ouvrir une boîte de dialogue dans laquelle vous pouvez modifier votre sélection de tables ou de colonnes.

    Note

    Si vous choisissez de vous connecter à une base de données qui n'est pas supportée dans le studio (à l'aide de la méthode ODBC ou JDBC), il est recommandé d'utiliser le moteur Java pour exécuter l'analyse de colonnes créée dans la base de données sélectionnée. Pour plus d'informations concernant le moteur Java, consultez Utiliser le moteur Java ou SQL.

  4. Vous pouvez :

    • développer le nœud DB Connections et parcourir les entités de votre connexion à la base de données pour atteindre la table contenant les colonnes que vous souhaitez analyser.

    • ou filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter, respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

      Note

      Comme cette analyse récupère autant de lignes qu'il y a de valeurs distinctes afin de calculer les statistiques, il n'est pas recommandé de sélectionner une colonne de clé primaire.

      Dans cet exemple, le but est d'analyser un ensemble de six colonnes dans la table customer : numéro de compte (account_num), éducation (education), adresse e-mail (email), prénom (fname), nom de famille (lname) et genre (gender), ainsi que d'identifier le nombre de lignes, le nombre de valeurs distinctes et uniques, ainsi que le nombre de doublons.

  5. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue [Column Selection].

  6. Dans la liste des colonnes, cochez la case de chaque colonne que vous souhaitez analyser puis cliquez sur OK.

    Les colonnes sélectionnées s'affichent dans la vue Analyzed Column de l'éditeur d'analyse.

  7. Vous pouvez choisir de vous connecter à une base de données différente dans la liste Connection. Ce champ liste toutes les connexions créées dans le Studio ainsi que le nom des bases de données correspondantes.

    Si les colonnes affichées dans la vue Analyzed Columns n'existent pas dans la nouvelle connexion, un message d'avertissement s'affichera pour vous permettre de continuer ou d'annuler l'opération.

  8. Si vous cliquez-droit sur l'une des colonnes affichées dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

  9. Vous pouvez utiliser les boutons Supprimer, Move Up (déplacer vers le haut) ou Move Down (déplacer vers le bas) afin de gérer les colonnes analysées.

Ajouter des modèles aux colonnes analysées

Vous pouvez ajouter des modèles à une ou plusieurs colonne(s) analysée(s), afin de valider l'enregistrement complet (toutes les colonnes) par rapport à des modèles, et non valider chaque colonne par rapport à un modèle spécifique, comme c'est le cas dans l'analyse de colonnes. Le graphique de résultats est un graphique à une seule barre, pour la totalité des modèles utilisés. Ce graphique montre le nombre de lignes correspondant à tous ("all") les modèles.

Avertissement

Avant de pouvoir utiliser un modèle spécifique dans une analyse d'un ensemble de colonnes, vous devez définir manuellement les paramètres des modèles pour Java, s'ils n'existent pas encore, dans la définition des modèles. Sinon, un message d'avertissement s'affiche et vous demande de définir l'expression régulière Java.

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser.

Pour ajouter des modèles à l'analyse d'un ensemble de colonnes, procédez comme suit :

  1. Cliquez sur l'icône à côté de chacune des colonnes que vous souhaitez valider par rapport à un modèle spécifique.

    La boîte de dialogue [Pattern Selector] s'affiche.

    Note

    Vous ne pouvez ajouter des expressions régulières qu'aux colonnes analysées.

    Vous pouvez déposer l'expression régulière directement à partir du dossier Patterns de la vue DQ Repository sur le nom de la colonne dans l'éditeur d'analyse de colonne(s).

    Avertissement

    Si aucune expression Java n'existe pour le modèle que vous souhaitez ajouter, un message d'avertissement s'affiche et vous demande d'ajouter la définition du modèle pour Java. Cliquez sur Yes (Oui) afin d'ouvrir l'éditeur de modèle et d'ajouter l'expression régulière Java, puis procédez à l'ajout du modèle aux colonnes analysées.

    Dans cet exemple, ajoutez également un modèle correspondant à chaque colonne analysée, afin de valider les données dans ces colonnes, par rapport aux modèles sélectionnés. Le graphique des résultats affichera le pourcentage des valeurs de correspondance, les valeurs respectant la totalité des modèles utilisés.

  2. Dans la boîte de dialogue [Pattern Selector], parcourez le dossier jusqu'à l'expression régulière que vous souhaitez ajouter à la colonne sélectionnée.

  3. Cochez la(es) case(s) des expression(s) régulière(s) que vous souhaitez ajouter à la colonne sélectionnée.

  4. Cliquez sur OK.

    L'expression (les expressions) régulière(s) ajoutée(s) s'affiche(nt) sous les colonnes analysées dans la liste Analyzed Columns, et l'indicateur All Match s'affiche dans la liste Indicators de la vue Indicators.

Finaliser et exécuter l'analyse d'un ensemble de colonnes

Avant d'exécuter l'analyse de cet ensemble de colonne, il vous reste à définir les indicateurs, le filtre sur les données et les paramètres d'analyse.

Prérequis : Une analyse d'un ensemble de colonnes doit déjà avoir été configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser dans un fichier délimité et Ajouter des modèles aux colonnes analysées.

  1. Cliquez sur Indicators dans l'éditeur d'analyse pour ouvrir la vue correspondante.

    Les indicateurs représentant les statistiques simple sont joints par défaut à ce type d'analyse. Pour plus d'informations concernant les indicateurs de statistiques simples, consultez Statistiques simples.

  2. Au besoin, cliquez sur l'icône pour ouvrir une boîte de dialogue dans laquelle vous pouvez définir les options pour chaque indicateur.

    Pour plus d'informations concernant la gestion des indicateurs, consultez Indicateurs.

  3. Dans la vue Data Filter, saisissez une clause "WHERE" SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

  4. Dans la vue Analysis Parameters :

    • Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.

      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.

    • Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.

      -Si vous sélectionnez le moteur Java, la case Store data est cochée par défaut et ne peut être décochée. Une fois l'analyse exécutée, les résultats du profiling sont disponibles localement. Vous pouvez les explorer via la vue Analysis Results > Data. Pour plus d'informations, consultez Accéder aux résultats de l'analyse et aux données analysées et Filtrer des données par rapport à des modèles.

      Exécuter l'analyse avec le moteur Java utilise de l'espace disque car toutes les données sont récupérées et stockées localement. Si vous souhaitez libérer de l'espace, vous pouvez supprimer les données stockées dans le répertoire suivant du studio : Talend-Studio>workspace>project_name>Work_MapDB.

      -Si vous sélectionnez le moteur SQL, vous pouvez utiliser la case Store data pour décider de stocker localement les données analysées et y accéer via la vue Analysis Results > Data. Pour plus d'informations, consultez Accéder aux résultats de l'analyse et aux données analysées.

      Note

      Si les données en cours d'analyse sont très volumineuses, il est recommandé de ne pas cocher la case Store data pour ne pas stocker les résultats à la fin des calculs de l'analyse.

  5. Si vous avez défini des variables de contexte dans la vue Contexts, dans l'éditeur d'analyse :

    • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte afin de filtrer les données et décider du nombre de connexions concourantes par analyse, respectivement.

    • Dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.

    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

  6. Cliquez sur l'icône de sauvegarde en haut de l'éditeur d'analyse, puis appuyez sur F6 pour exécuter l'analyse.

    Le panneau Graphics à droite de l'éditeur d'analyse affiche les résultats graphiques correspondant aux indicateurs de statistiques simples utilisés pour analyser l'ensemble défini de colonnes.

    Le diagramme des résultats fournit des statistiques simples concernant les enregistrements complets de l'ensemble de colonnes analysées et non séparément sur les valeurs de chaque colonne.

    Lorsque vous utilisez des modèles pour faire correspondre le contenu des colonnes à analyser, un autre graphique s'affiche afin d'illustrer les résultats de correspondance par rapport à la totalité des modèles utilisés.

Accéder aux résultats de l'analyse et aux données analysées

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser et Ajouter des modèles aux colonnes analysées.

Pour accéder à une vue plus détaillée des résultats d'analyse :

  1. Cliquez sur l'onglet Analysis Results au bas de l'éditeur d'analyse.

    La vue correspondante s'affiche. Vous pouvez lire les résultats de l'analyse dans des tableaux et des graphiques.

  2. Dans la table Simple Statistics, cliquez-droit sur le résultat d'un indicateur et sélectionnez View Rows ou View Values.

    • Si vous exécutez l'analyse avec le moteur Java, une liste des données analysées s'affiche dans la perspective Profiling.

    • Si vous exécutez l'analyse avec le moteur SQL, une liste des données analysées s'affiche dans la perspective Data Explorer.

  3. Dans la table All Match, cliquez-droit sur la ligne du résultat et sélectionnez Generate an ETL job to handle rows.

    Vous pouvez générer un Job prêt à l'emploi qui récupère les lignes valides/invalides et les écrit dans deux fichiers séparés. Pour plus d'informations, consultez Récupérer les lignes correspondantes/non correspondantes.

    Note

    La table All Match est disponible uniquement lorsque vous exécutez l'analyse avec le moteur Java.

  4. Dans le vue Data, cliquez sur Filter Data afin de filtrer les données valides/invalides selon les modèles utilisés.

    Vous pouvez filtrer des données uniquement lorsque vous exécutez l'analyse avec le moteur Java. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.

Filtrer des données par rapport à des modèles

Après avoir analysé un ensemble de colonnes par rapport à un groupe de modèles et avoir obtenu les résultats des lignes correspondant ou ne correspondant pas à tous ("all") les modèles, vous pouvez filtrer les données valides/invalides selon les modèles utilisés.

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Vous avez utilisé le moteur Java pour exécuter votre analyse.

Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser et Ajouter des modèles aux colonnes analysées.

Pour filtrer les résultats de l'analyse d'un ensemble de colonnes, procédez comme suit :

  1. Dans l'éditeur d'analyse, cliquez sur l'onglet Analysis Results en bas de l'éditeur, afin d'ouvrir la vue détaillée des résultats.

  2. Cliquez sur Data pour ouvrir la vue correspondante.

    Un tableau liste les données analysées dans les colonnes analysées.

  3. Cliquez sur le bouton Filter Data au-dessus du tableau.

    Une boîte de dialogue s'affiche et liste tous les modèles utilisés dans l'analyse d'un ensemble de colonnes.

  4. Cochez la case des modèles avec lesquels vous souhaitez filtrer les données.

  5. Sélectionnez une option d'affichage comme suit :

    Sélectionnez

    pour...

    All data

    afficher toutes les données analysées.

    matches

    afficher uniquement les données correspondant au modèle sélectionné.

    non-matches

    afficher les données ne correspondant pas au modèle sélectionné.

  6. Cliquez sur Finish pour fermer la boîte de dialogue.

    Dans cet exemple, les données sont filtrées par rapport au modèle Email Address. Seules les données ne correspondant pas sont affichées.