Accéder au contenu principal Passer au contenu complémentaire

Créer une analyse d'un ensemble de colonnes sur un fichier délimité à l'aide de modèles

Ce type d'analyse fournit des statistiques simples sur le nombre d'enregistrements appartenant à certaines catégories, comme le nombre de lignes, le nombre de valeurs nulles, le nombre de valeurs uniques et distinctes, le nombre de doublons ou le nombre de champs blancs.

Pour plus d'informations concernant ces indicateurs consultez Statistiques simples..

Il est également possible d'ajouter des modèles à ce type d'analyse et d'avoir un graphique de résultats avec une seule barre, affichant le nombre de lignes correspondant à tous les modèles ("all").

Définir l'ensemble de colonnes à analyser dans un fichier délimité

Vous pouvez analyser le contenu d'un ensemble de colonnes dans un fichier délimité. Cet ensemble peut représenter une partie des colonnes de la table définie ou la table dans son ensemble.

Vous pouvez exécuter l'analyse créée à l'aide du moteur Java.

Before you begin

Au moins une connexion à un fichier délimité doit avoir été définie dans la perspective Profiling du Studio Talend. Pour plus d'informations, consultez Se connecter à une base de données.
Note InformationsWarning: Lorsque vous effectuez ce type d'analyse, l'ensemble de colonnes à analyser ne doit pas inclure une colonne ayant une clé primaire.

Procedure

  1. Depuis la perspective Profiling , développez Data Profiling (Profiling de données).
  2. Cliquez-droit sur Analyses et sélectionnez New Analysis (Nouvelle analyse). La boîte de dialogue Create New Analysis (Créer une analyse) s'ouvre.
  3. Développez la section Table Analysis (Analyse de table), sélectionnez Column Set Analysis (Analyse d'ensemble de colonnes) et cliquez sur Next (Suivant).
  4. Définissez les métadonnées de l'analyse de colonne(s) : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next pour procéder à l'étape suivante.
  5. Développez FileDelimited, parcourez l'arborescence jusqu'à l'ensemble de colonnes que vous souhaitez analyser.
  6. Sélectionnez les colonnes à analyser puis cliquez sur Finish afin de fermer l'assistant [New analysis].
    Un dossier pour l'analyse nouvellement créée s'affiche sous le nœud Analyses dans la vue DQ Repository et l'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.
    Des données d'exemple sont affichées dans la zone Data Preview et les colonnes sélectionnées sont affichées dans la zone Analyzed Column de l'éditeur de l'analyse.
  7. Au besoin, dans la liste Connection de la vue Analyzed Columns, sélectionnez une autre connexion à un fichier délimité afin de remplacer celle sélectionnée dans l'étape précédente. Ce champ affiche toutes les connexions créées dans le Studio Talend ainsi que le nom des bases de données correspondantes.
    Par défaut, la connexion au fichier délimité que vous avez sélectionnée dans l'étape précédente est affichée dans la liste Connection.
  8. Cliquez sur Select column to analyze afin d'ouvrir la boîte de dialogue [Column Selection] dans laquelle vous pouvez modifier votre sélection de colonnes.
    Boîte de dialogue Column Selection (Sélection de colonnes) pour modifier les colonnes à analyser.
    Note InformationsNote: Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.
  9. Dans la liste des colonnes, cochez la case de chaque colonne que vous souhaitez analyser puis cliquez sur OK pour passer à l'étape suivante.
    Dans cet exemple, le but est d'analyser un ensemble de six colonnes dans le fichier délimité : numéro de compte (account_num), éducation (education), adresse e-mail (email), prénom (fname), nom de famille (lname) et genre (gender), ainsi que d'identifier le nombre de lignes, le nombre de valeurs distinctes et uniques, ainsi que le nombre de doublons.
    Vue d'ensemble des six colonnes à analyser.

Ajouter des modèles aux colonnes analysées dans un fichier délimité

Vous pouvez ajouter des modèles à une ou plusieurs colonne(s) analysée(s), afin de valider l'enregistrement complet (toutes les colonnes) par rapport à des modèles, et non valider chaque colonne par rapport à un modèle spécifique, comme c'est le cas dans l'analyse de colonnes. Le graphique de résultats est un graphique à une seule barre, pour la totalité des modèles utilisés. Ce graphique montre le nombre de lignes correspondant à tous ("all") les modèles.

Note InformationsWarning: Avant de pouvoir utiliser un modèle spécifique dans une analyse d'un ensemble de colonnes, vous devez définir manuellement les paramètres des modèles pour Java, s'ils n'existent pas encore, dans la définition du modèle. Sinon, un message d'avertissement s'affiche et vous demande de définir l'expression régulière Java.

Before you begin

Une analyse d'un ensemble de colonnes doit être ouverte dans l'éditeur d'analyse, dans la perspective Profiling de Studio Talend.

Procedure

Cochez les cases des expressions à ajouter à la colonne sélectionnée, puis cliquez sur OK.
Les expressions régulières ajoutées s'affichent sous les colonnes analysées dans la liste Analyzed Columns (Colonnes analysées) et l'indicateur All Match s'affiche dans la liste Indicators (Indicateurs) de la vue Indicators (Indicateurs).
L'expression régulière ajoutée s'affiche sous la colonne analysée dans la section Analyzed Columns (Colonnes analysées).

Finaliser et exécuter l'analyse d'un ensemble de colonnes sur un fichier délimité

Avant d'exécuter l'analyse de cet ensemble de colonne, il vous reste à définir les indicateurs, le filtre sur les données et les paramètres d'analyse.

Before you begin

Prérequis : Une analyse d'un ensemble de colonnes doit déjà avoir été configurée, dans la perspective Profiling du Studio Talend.

Procedure

  1. Dans la section Analysis Parameters (Paramètres d'analyse), cochez la case Allow drill down (Autoriser l'exploration) si vous souhaitez stocker localement les données qui seront analysées dans l'analyse courante.
    Emplacement de la case Allow drill down (Autoriser l'exploration) dans la section Analysis Parameters (Paramètres de l'analyse).
  2. Dans le champ Max number of rows kept per indicator, saisissez le nombre de lignes de données que vous souhaitez rendre accessibles.
    Note InformationsNote: La case Allow drill down est cochée par défaut et le nombre maximal de lignes de données analysées à afficher par indicateur est de 50.
  3. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.

Results

L'éditeur passe à la vue Analysis Results et affiche les résultats graphiques correspondant aux indicateurs de statistiques simples utilisés pour analyser l'ensemble défini de colonnes.
Résultats graphiques correspondants aux indicateurs Simple Statistics (Statistiques simples) dans la section Simple Statistics (Statistiques simples).

Lorsque vous utilisez des modèles afin de rapprocher le contenu de l'ensemble de colonnes, un autre diagramme est affiché pour illustrer les résultats qui correspondent et qui ne correspondent pas par rapport à la totalité des modèles utilisés.

Résultats graphiques affichant les valeurs correspondant et ne correspondant pas aux modèles, dans la section All Match (Tous les rapprochements).

Filtrer des données par rapport à des modèles

About this task

La procédure pour filtrer les données d'une analyse de fichier délimité est la même que pour une analyse de base de données. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.