Accéder au contenu principal Passer au contenu complémentaire

Utiliser des expressions régulières et des modèles SQL dans une analyse de colonne(s)

Vous pouvez utiliser des expressions régulières ou des modèles SQL dans des analyses de colonne(s). Ces expressions et modèles vous permettent de définir le contenu, la structure et la qualité des données des colonnes analysées.

Pour plus d'informations sur les expressions régulières et les modèles SQL, consultez Modèles et indicateurs et Les étapes de l'analyse de tables de base de données.

Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s)

Vous pouvez ajouter une ou plusieurs expression(s) régulière(s) ou un ou plusieurs modèle(s) SQL à toute analyse de colonne(s). Vous pourrez comparer le contenu des colonnes à analyser à l'expression régulière ou au modèle SQL ajouté(e).

Note InformationsWarning:

Si la base de données que vous utilisez ne supporte pas les expressions régulières ou si le modèle de la requête n'est pas défini dans le Studio Talend, vous devez d'abord déclarer la fonction personnalisée et définir le modèle de la requête avant de pouvoir ajouter l'un des modèles spécifiés à l'analyse de colonne(s).

Pour plus d'informations, consultez Gérer les fonctions personnalisées dans les bases de données.

Before you begin

  • Vous avez sélectionné la perspective Profiling .
  • Une analyse de colonne(s) doit être ouverte dans l'éditeur.

Procedure

  1. Dans la section Analyzed Columns (Colonnes analysées) de l'éditeur d'analyse, cliquez sur Add pattern (Ajouter un modèle) à côté du nom de la colonne à laquelle vous souhaitez ajouter une expression régulière ou un modèle SQL, la colonne email par exemple.
    La boîte de dialogue [Pattern Selector] s'ouvre.
  2. Développez le nœud Patterns et cherchez l'expression régulière et/ou le modèle SQL que vous souhaitez ajouter à l'analyse de colonne(s).
  3. Cochez les cases correspondant aux expressions ou aux modèles que vous voulez ajouter à la colonne sélectionnée.
  4. Cliquez sur OK pour passer à l'étape suivante.
    Les expressions régulières ajoutées ou les modèles SQL ajoutés s'affichent sous la colonne analysée dans la liste Analyzed Columns (Colonnes analysées).
    Vous pouvez ajouter une expression régulière ou un modèle SQL à une colonne par un simple glisser-déposer à partir de l'arborescence DQ Repository sur la colonne analysée.
  5. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    L'éditeur passe à la vue Analysis result. Les résultats de l'analyse de colonnes comprennent ceux de la correspondance de modèles.
    Diagramme affichant les correspondances et les non correspondances par rapport au modèle SQL ou à l'expression régulière.

Results

Si l'expression régulière que vous avez ajoutée à l'analyse de colonnes est définie pour une base de données, vous pouvez générer un Job ETL afin de récupérer des lignes valides et invalides.

Si l'expression régulière ajoutée à l'analyse de colonnes est définie pour le langage Java ou Default, vous pouvez générer des Jobs ETL pour gérer les lignes.

Modifier un modèle dans l'analyse de colonne·s

Before you begin

Une analyse de colonne(s) doit être ouverte dans l'éditeur.

Procedure

  1. Dans la section Analyzed Columns (Colonnes analysées) de l'éditeur d'analyses, cliquez-droit sur le modèle que vous souhaitez modifier, puis sélectionnez Edit pattern (Modifier le modèle) dans le menu contextuel.
    Menu contextuel d'une colonne analysée dans la section Analyzed Columns (Colonnes analysées).
    L'éditeur de modèle s'ouvre et affiche les métadonnées du modèle sélectionné.
    Vue d'ensemble de la section Pattern Definition (Définition du modèle).
  2. Dans la section Pattern Definition (Définition du modèle), modifiez la définition du modèle, changez la base de données sélectionnée, ou encore ajoutez des modèles spécifiques aux bases de données disponibles en cliquant sur le bouton [+].
    Si le modèle régulier est assez simple pour être utilisé dans toutes les bases de données, sélectionnez Default dans la liste.
    Lorsque vous modifiez un modèle via l'éditeur d'analyses, vous modifiez le modèle dans le référentiel du Studio Talend. Vérifiez que vos modifications sont compatibles avec toutes les autres analyses utilisant ce modèle modifié.
  3. Sauvegardez vos modifications.

Voir les données analysées par rapport aux modèles

Before you begin

Les bibliothèques SQL Explorer requises pour la qualité de données doivent être installées dans le Studio Talend.

About this task

Lorsque vous ajoutez un ou plusieurs modèle·s à une colonne analysée, vous vérifiez toutes les données existantes dans la colonne par rapport au·x modèle·s spécifié·s. Après l'exécution de l'analyse de colonne, vous pouvez accéder à une liste de toutes les données valides/invalides dans la colonne analysée.

Lorsque vous utilisez le moteur Java pour exécuter l'analyse, la vue des données courantes s'ouvre dans la perspective Profiling . Si vous utilisez le moteur SQL pour exécuter l'analyse, la vue des données s'ouvre dans la perspective Data Explorer.

Si vous n'installez pas ces bibliothèques, la perspective Data Explorer sera absente du Studio Talend et de nombreuses fonctionnalités ne seront pas disponibles. Pour plus d'informations concernant l'identification et l'installation des modules externes, consultez Installer des modules externes dans le Studio Talend.

Pour voir les données de la colonne analysée par rapport à un modèle spécifique, procédez comme suit :

Procedure

  1. Suivez les étapes décrites dans Définir les colonnes à analyser et Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s) pour créer une analyse de colonnes qui utilise un modèle.
  2. Exécutez l'analyse de colonne(s).
    L'éditeur passe à la vue Analysis Results.
  3. Parcourez l'indicateur Pattern Matching sous le nom de la colonne analysée.
    Le graphique généré pour la correspondance de modèles est accompagné d'un tableau détaillant l'affichage des résultats correspondants.
    Menu contextuel d'un libellé dans la section Pattern Matching (Correspondance des modèles).
  4. Cliquez-droit sur la ligne du modèle dans le tableau Pattern Matching et sélectionnez une option.
    Option Résultats
    View valid/invalid values accéder, dans l'éditeur SQL, à une liste de toutes les valeurs valides/invalides, mesurées par rapport à un modèle utilisé pour la colonne sélectionnée.
    View valid/invalid rows accéder, dans l'éditeur SQL, à une liste de toutes les lignes valides/invalides mesurées par rapport à un modèle utilisé pour la colonne sélectionnée.
    Generate Jobs générer des Jobs qui récupèreront les lignes valides/invalides ou récupèreront les deux types de lignes dans la colonne sélectionnée et les écriront dans des fichiers de sortie ou dans des bases de données.

    Pour plus d'informations, consultez Récupérer les lignes correspondantes/non correspondantes.

Results

Si vous utilisez le moteur SQL, la vue s'ouvre dans la perspective Data Explorer et liste toutes les lignes ou les valeurs des données analysées selon les limites définies dans l'explorateur de données.

Lignes valides et invalides et leurs valeurs dans la perspective Data Explorer.

Cette vue de l'explorateur va également fournir des informations de base concernant l'analyse elle-même. Ces informations sont utiles lorsque vous travaillez avec de nombreuses analyses simultanément.

L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur·trice est vide, par exemple la connexion en session unique (SSO, Single Sign-On) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer, un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

Lorsque vous utilisez le moteur Java, la vue s'ouvre dans la perspective Profiling et liste le nombre de données valides/invalides selon la limite définie dans la vue Analysis parameters de l'éditeur d'analyse. Pour plus d'informations, consultez Utiliser le moteur Java ou SQL.

Vue d'ensemble de l'onglet View invalid rows (Voir les lignes invalides).

Vous pouvez sauvegarder la requête exécutée et la lister sous les dossiers Libraries > Source Files dans la vue DQ Repository si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur SQL. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Récupérer les lignes valides/invalides

Lorsque vous ajoutez un ou plusieurs modèle·s à une colonne analysée, vous vérifiez toutes les données existantes dans la colonne par rapport au·x modèle·s spécifié·s.

Après l'exécution de l'analyse de colonne, vous pouvez générer un Job prêt à l'emploi récupérant les lignes valides, invalides, ou les deux et les écrit dans des fichiers ou des bases de données en sortie.

Pour plus d'informations, consultez Récupérer les lignes valides/invalides dans une analyse de colonne(s).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.