Utiliser des expressions régulières et des modèles SQL dans une analyse de colonne(s)

Talend Open Studio for Data Quality Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Data Quality
task
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez utiliser des expressions régulières ou des modèles SQL dans des analyses de colonne(s). Ces expressions et modèles vous permettent de définir le contenu, la structure et la qualité des données des colonnes analysées.

Pour plus d'informations concernant les expressions régulières et les modèles SQL, consultez Modèles et indicateurs et Analyses de tables.

Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s)

Vous pouvez ajouter une ou plusieurs expression(s) régulière(s) ou un ou plusieurs modèle(s) SQL à toute analyse de colonne(s). Vous pourrez comparer le contenu des colonnes à analyser à l'expression régulière ou au modèle SQL ajouté(e).

Avertissement

Si la base de données que vous utilisez ne supporte pas les expressions régulières ou si le modèle de la requête n'est pas défini dans le studio, vous devez d'abord déclarer la fonction personnalisée et définir le modèle de la requête avant de pouvoir ajouter l'un des modèles spécifiés à l'analyse de colonne(s). Pour plus d'informations, consultez  Gérer les fonctions personnalisées dans les bases de données.

Prérequis : La perspective Profiling du studio doit être sélectionnée. Une analyse de colonne(s) doit être ouverte dans l'éditeur.

Pour ajouter une expression régulière ou un modèle SQL à une analyse de colonne(s), procédez comme suit :

  1. Suivez les étapes décrites dans Définir les colonnes à analyser afin de créer une analyse de colonne(s).

  2. Dans la vue Analyzed Columns, cliquez sur l'icône à côté du nom de la colonne à laquelle vous souhaitez ajouter une expression régulière ou un modèle SQL.

    La boîte de dialogue [Pattern Selector] s'ouvre.

  3. Développez le nœud Patterns et cherchez l'expression régulière et/ou le modèle SQL que vous souhaitez ajouter à l'analyse de colonne(s).

  4. Cochez la (les) case(s) correspondant à l'expression (aux expressions) régulière(s) ou au(x) modèle(s) que vous voulez ajouter à la colonne sélectionnée.

  5. Cliquez sur OK pour procéder à l'étape suivante.

    L'expression (les expressions) régulière(s) ajoutée(s) ou modèle(s) SQL ajouté(s) s'affiche(nt) sous la colonne analysée dans la liste Analyzed Column.

    Vous pouvez ajouter une expression régulière ou un modèle SQL à une colonne par un simple glisser-déposer à partir de l'arborescence DQ Repository sur la colonne analysée.

  6. Appuyez sur F6 pour exécuter l'analyse de colonne(s).

    L'éditeur passe à la vue Analysis result. Les résultats de l'analyse de colonnes comprennent ceux de la correspondance de modèles.

Modifier un modèle dans l'analyse de colonne(s)

Prérequis : La perspective Profiling du studio doit être sélectionnée. Une analyse de colonne(s) doit être ouverte dans l'éditeur d'analyse.

Pour éditer un modèle ajouté à une colonne analysée :

  1. Dans la vue Analyzed Columns de l'éditeur d'analyses, cliquez-droit sur le modèle que vous souhaitez éditer, puis sélectionnez Edit pattern dans le menu contextuel.

    L'éditeur de modèle s'ouvre et affiche les métadonnées du modèle sélectionné.

  2. Dans la vue Pattern Definition, modifiez la définition du modèle, changez la base de données sélectionnée, ou encore ajoutez des modèles spécifiques aux bases de données disponibles en cliquant sur le bouton [+].

    Si le modèle régulier est assez simple pour être utilisé dans toutes les bases de données, sélectionnez Default dans la liste.

    Lorsque vous modifiez un modèle via l'éditeur d'analyses, vous modifiez le modèle dans le référentiel du studio. Vérifiez que vos modifications sont compatibles avec toutes les autres analyses utilisant ce modèle modifié.

  3. Enregistrez vos modifications.

Voir les données analysées par rapport aux modèles

Lorsque vous ajoutez un ou plusieurs modèle(s) à une colonne analysée, vous vérifiez toutes les données existantes dans la colonne par rapport au(x) modèle(s) spécifié(s). Après l'exécution de l'analyse de colonne, vous pouvez accéder à une liste de toutes les données valides/invalides dans la colonne analysée.

Si vous utilisez le moteur Java pour exécuter l'analyse, la vue des données s'ouvre dans le studio. Si vous utilisez le moteur SQL pour exécuter l'analyse, la vue des données s'ouvre dans la perspective Data Explorer.

Prérequis :

  • La perspective Profiling du studio doit être sélectionnée.

  • Vous devez avoir installé dans le studio certaines bibliothèques SQL Explorer requises pour la qualité de données.

Si vous n'installez pas ces bibliothèques, la perspective Data Explorer sera absente du studio et de nombreuses fonctionnalités ne seront pas disponibles. Pour plus d'informations concernant l'identification et l'installation des modules externes, consultez le Guide d'installation et de migration Talend.

Pour voir les données de la colonne analysée par rapport à un modèle spécifique, procédez comme suit :

  1. Suivez les étapes décrites dans Définir les colonnes à analyser et Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s) pour créer une analyse de colonne(s) utilisant un modèle.

  2. Exécutez l'analyse de colonne(s).

    L'éditeur passe à la vue Analysis Results.

  3. Parcourez l'indicateur Pattern Matching sous le nom de la colonne analysée.

    Le graphique généré pour la correspondance de modèles est accompagné d'un tableau détaillant l'affichage des résultats correspondants.

  4. Cliquez-droit sur la ligne du modèle dans le tableau Pattern Matching et sélectionnez :

Option

Pour...

View valid/invalid values

accéder, dans l'éditeur SQL, à une liste de toutes les valeurs valides/invalides, mesurées par rapport à un modèle utilisé pour la colonne sélectionnée.

View valid/invalid rows

accéder, dans l'éditeur SQL, à une liste de toutes les lignes valides/invalides mesurées par rapport à un modèle utilisé pour la colonne sélectionnée.

Si vous utilisez le moteur SQL, la vue s'ouvre dans la perspective Data Explorer et liste toutes les valeurs ou les lignes valides/invalides des données analysées selon les limites définies dans l'explorateur de données.

Cette vue de l'explorateur va également fournir des informations de base concernant l'analyse elle-même. Ces informations sont utiles lorsque vous travaillez avec de nombreuses analyses simultanément.

L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur est vide, par exemple la connexion en session unique (Single sign-on) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer, un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

Si vous utilisez le moteur Java, la vue s'ouvre dans la perspective Profiling du studio et liste le nombre de données valides/invalides selon la limite définie dans la vue Analysis parameters de l'éditeur d'analyse. Pour plus d'informations, consultez Utiliser le moteur Java ou SQL.

Vous pouvez sauvegarder la requête exécutée et la lister sous les dossiers Libraries > Source Files dans la vue DQ Repository si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur SQL. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Pour plus d'informations concernant l'interface de la perspective Data Explorer, consultez Interface de la perspective Data Explorer.