Créer une analyse d'un ensemble de colonnes sur un fichier délimité à l'aide de modèles - 6.4

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce type d'analyse fournit des statistiques simples sur le nombre d'enregistrements appartenant à certaines catégories, comme le nombre de lignes, le nombre de valeurs nulles, le nombre de valeurs uniques et distinctes, le nombre de doublons ou le nombre de champs blancs. Pour plus d'informations concernant ces indicateurs, consultez Statistiques simples.

Il est également possible d'ajouter des modèles à ce type d'analyse et d'avoir un graphique de résultats avec une seule barre, affichant le nombre de lignes correspondant à tous les modèles ("all").

Définir l'ensemble de colonnes à analyser dans un fichier délimité

Vous pouvez analyser le contenu d'un ensemble de colonnes dans un fichier délimité. Cet ensemble peut représenter seulement certaines des colonnes de la table définie ou la table complète.

Vous pouvez exécuter l'analyse créée à l'aide du moteur Java.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Avertissement

Lorsque vous effectuez ce type d'analyse, l'ensemble de colonnes à analyser ne doit pas inclure une colonne ayant une clé primaire.

Pour définir un ensemble de colonnes à analyser, procédez comme suit :

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir Column Set Analysis, sélectionnez Column Set Analysis puis cliquez sur Next. Si votre studio est en français, saisissez analyse d'un ensemble de colonnes.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse de colonne(s) : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

  6. Développez le nœud File delimited, parcourez l'arborescence jusqu'à l'ensemble de colonnes que vous souhaitez analyser.

  7. Sélectionnez les colonnes à analyser puis cliquez sur Finish afin de fermer l'assistant [New analysis].

    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analysis dans la vue DQ Repository, et l'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.

  8. Au besoin, dans la liste Connection de la vue Analyzed Columns, sélectionnez une autre connexion à un fichier délimité afin de remplacer celle sélectionnée dans l'étape précédente. Ce champ affiche toutes les connexions créées dans le Studio ainsi que le nom des bases de données correspondantes.

    Par défaut, la connexion au fichier délimité que vous avez sélectionnée dans l'étape précédente est affichée dans la liste Connection.

  9. Cliquez sur Select column to analyze afin d'ouvrir la boîte de dialogue [Column Selection] dans laquelle vous pouvez modifier votre sélection de colonnes.

    Note

    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter, respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

  10. Dans la liste des colonnes, cochez la case de chaque colonne que vous souhaitez analyser puis cliquez sur OK.

    Dans cet exemple, le but est d'analyser un ensemble de six colonnes dans le fichier délimité : numéro de compte (account_num), éducation (education), adresse e-mail (email), prénom (fname), nom de famille (lname) et genre (gender), ainsi que d'identifier le nombre de lignes, le nombre de valeurs distinctes et uniques, ainsi que le nombre de doublons.

  11. Si nécessaire, utilisez les boutons de suppression ou de déplacement vers le haut ou le bas pour gérer les colonnes analysées.

    Note

    Si vous cliquez-droit sur l'une des colonnes affichées dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

Ajouter des modèles aux colonnes analysées dans un fichier délimité

Vous pouvez ajouter des modèles à une ou plusieurs colonne(s) analysée(s), afin de valider l'enregistrement complet (toutes les colonnes) par rapport à des modèles, et non valider chaque colonne par rapport à un modèle spécifique, comme c'est le cas dans l'analyse de colonnes. Le graphique de résultats est un graphique à une seule barre, pour la totalité des modèles utilisés. Ce graphique montre le nombre de lignes correspondant à tous ("all") les modèles.

Avertissement

Avant de pouvoir utiliser un modèle spécifique dans une analyse d'un ensemble de colonnes, vous devez définir manuellement les paramètres des modèles pour Java, s'ils n'existent pas encore, dans la définition du modèle. Sinon, un message d'avertissement s'affiche et vous demande de définir l'expression régulière Java.

Prérequis : Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser dans un fichier délimité.

Pour ajouter des modèles à l'analyse d'un ensemble de colonnes, procédez comme suit :

  1. Cliquez sur l'icône à côté de chacune des colonnes que vous souhaitez valider par rapport à un modèle spécifique.

    La boîte de dialogue [Pattern Selector] s'affiche.

    Note

    Vous ne pouvez ajouter des expressions régulières qu'aux colonnes analysées.

    Vous pouvez déposer l'expression régulière directement à partir du dossier Patterns de la vue DQ Repository sur le nom de la colonne dans l'éditeur d'analyse de colonne(s).

    Avertissement

    Si aucune expression Java n'existe pour le modèle que vous souhaitez ajouter, un message d'avertissement s'affiche et vous demande d'ajouter la définition du modèle pour Java. Cliquez sur Yes (Oui) afin d'ouvrir l'éditeur de modèle et d'ajouter l'expression régulière Java, puis procédez à l'ajout du modèle aux colonnes analysées.

    Dans cet exemple, ajoutez également un modèle correspondant à chaque colonne analysée, afin de valider les données dans ces colonnes, par rapport aux modèles sélectionnés. Le graphique des résultats affichera le pourcentage des valeurs de correspondance, les valeurs respectant la totalité des modèles utilisés.

  2. Dans la boîte de dialogue [Pattern Selector], développez le nœud Patterns et parcourez le dossier jusqu'à l'expression régulière que vous souhaitez ajouter à la colonne sélectionnée.

  3. Cochez la(es) case(s) des expression(s) régulière(s) que vous souhaitez ajouter à la colonne sélectionnée.

  4. Cliquez sur OK.

    L'expression (les expressions) régulière(s) ajoutée(s) s'affiche(nt) sous les colonnes analysées dans la liste Analyzed Columns, et l'indicateur All Match s'affiche dans la liste Indicators de la vue Indicators.

Finaliser et exécuter l'analyse d'un ensemble de colonnes sur un fichier délimité

Avant d'exécuter l'analyse de cet ensemble de colonne, il vous reste à définir les indicateurs, le filtre sur les données et les paramètres d'analyse.

Prérequis : Une analyse d'un ensemble de colonnes doit déjà avoir été configurée, dans la perspective Profiling du studio, Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser dans un fichier délimité et la Ajouter des modèles aux colonnes analysées dans un fichier délimité.

  1. Cliquez sur Indicators dans l'éditeur d'analyse pour ouvrir la vue correspondante.

    Note

    Les indicateurs représentant les statistiques simple sont joints par défaut à ce type d'analyse. Pour plus d'informations concernant les indicateurs de statistiques simples, consultez Statistiques simples.

  2. Cliquez sur l'icône pour ouvrir une boîte de dialogue dans laquelle vous pouvez définir les options pour chaque indicateur. Pour plus d'informations concernant la gestion des indicateurs, consultez Indicateurs.

  3. Si nécessaire, cliquez sur Data Filter dans l'éditeur d'analyse pour afficher sa vue et filtrer les données à l'aide de clauses "WHERE" SQL.

  4. Dans la vue Analysis Parameters, cochez la case Allow drill down si vous souhaitez stocker localement les données qui seront analysées dans l'analyse courante.

  5. Dans le champ Max number of rows kept per indicator, saisissez le nombre de lignes de données que vous souhaitez rendre accessible.

    Note

    La case Allow drill down est cochée par défaut et le nombre maximal de lignes de données analysées à afficher par indicateur est de 50.

  6. Appuyez sur F6 pour exécuter l'analyse.

    L'éditeur passe à la vue Analysis Results et affiche les résultats graphiques correspondant aux indicateurs de statistiques simples utilisés pour analyser l'ensemble défini de colonnes.

    Lorsque vous utilisez des modèles pour faire correspondre le contenu des colonnes à analyser, un autre graphique s'affiche afin d'illustrer les résultats de correspondance par rapport à la totalité des modèles utilisés.

Filtrer des données par rapport à des modèles

La procédure pour filtrer les données d'une analyse de fichier délimité est la même que pour une analyse de base de données. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.