Gérer les expressions régulières et les modèles SQL - 6.1

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Les procédures de gestion des expressions régulières et des modèles SQL comprennent des opérations telles que la création, le test, la duplication, l'import et l'export.

Les sections ci-dessous expliquent en détail chaque option de gestion des expressions régulières et des modèles SQL. Les processus de gestion pour les deux types de modèles sont exactement les mêmes.

Créer une nouvelle expression régulière ou un nouveau modèle SQL

Vous pouvez créer de nouvelles expressions régulières ou de nouveaux modèles SQL, y compris celles et ceux pour Java à utiliser lors d'analyses de colonnes.

Note

Les processus de gestion des expressions régulières et des modèles SQL sont les mêmes. La procédure ci-dessous avec toutes ses captures d'écran reflète les étapes de la création d'une expression régulière, mais vous pouvez suivre les mêmes étapes pour créer un modèle SQL.

Prérequis : La perspective Profiling du studio doit être ouverte.

Pour créer un nouveau modèle, procédez comme suit :

  1. Dans la vue DQ Repository, développez successivement les nœuds Libraries et Patterns puis cliquez-droit sur Regex.

  2. Dans le menu contextuel, sélectionnez New Regex Pattern pour ouvrir l'assistant correspondant.

    Lorsque vous ouvrez l'assistant, un panneau d'aide s'ouvre automatiquement à côté de l'assistant. Ce panneau d'aide vous guide à travers les étapes de la création de nouveaux modèles.

  3. Dans le champ Name, saisissez un nom pour cette nouvelle expression régulière.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  4. Définissez les autres métadonnées : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

  5. Dans le champ Regular expression, saisissez la définition de l'expression régulière à créer. L'expression régulière doit être entourée de guillemets simples.

    Note

    Pour la base de données PostgreSQL, les expressions régulières ne sont pas compatibles entre les différentes versions de la base de données.

    Si vous souhaitez utiliser des expressions régulières avec la version 9.1 de PostgreSQL ou avec une version supérieure, vous devez :

    • durant la configuration de la base de données PostgreSQL, définir le paramètre standard_conforming_strings à off et saisir une double barre oblique inversée dans la définition, ou,

    • dans le champ Regular expression de l'assistant, utiliser une seule barre oblique inversée dans la définition de l'expression.

    Pour plus d'informations concernant les expressions régulières dans PostgreSQL, cliquez sur Window > Show View, développez Help et sélectionnez Bookmarks.

  6. Dans la liste Language Selection, sélectionnez le langage adéquat.

    Avertissement

    Si vous sélectionnez une base de données dans la liste Language Selection, vous pouvez générer des Jobs ELT sur les résultats d'analyse de colonnes pour récupérer des lignes valides et invalides. Si vous sélectionnez le langage Java ou Default, vous pouvez générer des Jobs ETL sur les résultats d'une analyse de colonnes. Pour plus d'informations concernant la génération d'un Job pour récupérer les lignes valides, invalides, ou les deux, consultez Récupérer les lignes valides/invalides dans une analyse de colonne(s).

  7. Cliquez sur Finish pour fermer la boîte de dialogue.

    Un sous-dossier pour cette nouvelle expression régulière s'affiche sous le nœud Regex dans la vue DQ Repository, et l'éditeur de modèle s'ouvre avec les métadonnées définies.

  8. Dans la vue Pattern Definition, cliquez sur le bouton [+] et ajoutez autant d'expressions régulières que nécessaire dans le nouveau modèle.

    Note

    Si l'expression régulière est assez simple pour être utilisée dans toutes les bases de données, sélectionnez Default dans la liste.

    Les sous-dossiers nommés selon les types de bases de données ou Java spécifiés s'affichent sous le nom du modèle créé, sous le dossier Patterns dans la vue DQ Repository.

  9. Sauvegardez le nouveau modèle.

    Une fois le modèle créé, vous pouvez le glisser sur une colonne dans l'éditeur d'analyse ouvert.

  10. Si nécessaire, cliquez sur le nom du modèle pour afficher ses informations dans la vue Detail View ainsi que dans la vue Technical dans le Studio.

    Note

    Dans l'éditeur de modèle, vous pouvez cliquer sur Test à côté de l'expression régulière afin de tester la définition du modèle. Pour plus d'informations, consultez Tester une expression régulière dans la vue Pattern Test. Dans la vue [Pattern Test View], vous pouvez créer un nouveau modèle basé sur l'expression régulière que vous testez. Pour plus d'informations, consultez Créer un nouveau modèle depuis la vue Pattern Test .

Tester une expression régulière dans la vue Pattern Test

Vous pouvez tester des séquences de caractères par rapport à une expression régulière prédéfinie ou nouvellement créée.

Prérequis : Au moins une connexion à une base de données doit avoir été configurée dans la perspective Profiling du studio.

Pour tester une séquence de caractères par rapport à une expression régulière, procédez comme suit :

  1. Suivez les étapes décrites dans Créer une nouvelle expression régulière ou un nouveau modèle SQL afin de créer une nouvelle expression régulière.

  2. Dans l'éditeur de modèle ouvert, cliquez sur Pattern Definition pour ouvrir la vue correspondante.

  3. Cliquez sur le bouton Test à côté de la définition par rapport à laquelle vous souhaitez tester une séquence de caractères pour passer à l'étape suivante.

    La vue Test s'affiche dans le Studio et affiche l'expression régulière sélectionnée.

  4. Dans la zone Test Area, saisissez la séquence de caractères que vous souhaitez vérifier par rapport à l'expression régulière.

  5. Dans la liste DB Connection, sélectionnez la base de données dans laquelle vous souhaitez utiliser l'expression régulière.

    Note

    Si vous choisissez de tester une expression régulière en Java, l'option Java sera sélectionnée par défaut. L'option et la listeDB Connections seront indisponibles dans la vue de test.

  6. Cliquez sur Test.

    Une icône s'affiche dans le coin supérieur gauche de la vue pour indiquer si la séquence de caractères saisie correspond ou non à la définition du modèle sélectionné.

  7. Si nécessaire, modifiez l'expression régulière selon vos besoins puis cliquez sur Save pour sauvegarder vos modifications.

    La définition du modèle est modifiée selon l'éditeur de modèles.

Note

Vous pouvez créer/modifier des modèles directement dans la vue Pattern Test ViewScope via le bouton Create Pattern. Pour plus d'informations, consultez Créer un nouveau modèle depuis la vue Pattern Test.

Créer un nouveau modèle depuis la vue Pattern Test

La perspective Profiling du studio vous permet de créer des modèles personnalisés dans la vue [Pattern Test View]. L'avantage de créer un modèle dans cette vue est de pouvoir créer votre modèle personnalisé à partir d'une expression régulière déjà testée. Vous devez simplement personnaliser la définition de l'expression selon vos besoins et la sauvegarder afin de créer un nouveau modèle.

Prérequis : La perspective Profiling du studio doit être ouverte.

Pour créer un nouveau modèle à partir d'une expression régulière prédéfinie ou précédemment créée, procédez comme suit :

  1. Dans la vue DQ Repository, développez Libraries > Patterns > Regex et double-cliquez sur le modèle que vous souhaitez utiliser pour créer votre modèle personnalisé.

    L'éditeur de modèle s'ouvre dans le studio.

  2. Cliquez sur le bouton Test à côté de la définition que vous souhaitez utiliser comme base du nouveau modèle.

    La vue [Pattern Test View] s'ouvre sur la définition de l'expression régulière sélectionnée.

  3. Testez l'expression régulière en saisissant du texte dans la vue Test Area. Pous plus d'informations, consultez Tester une expression régulière dans la vue Pattern Test.

  4. Cliquez sur Create Pattern pour ouvrir l'assistant [New Regex pattern].

  5. Dans le champ Name, saisissez un nom pour cette nouvelle expression régulière.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  6. Renseignez les autres métadonnées (Purpose, Description et Author) dans les champs correspondants et cliquez sur Next.

    La définition de l'expression régulière initiale est listée dans le champ Regular expression.

  7. Personnalisez la syntaxe de l'expression régulière initiale selon vos besoins. La définition de l'expression régulière doit être entourée de guillemets simples.

    Note

    Pour la base de données PostgreSQL, les expressions régulières ne sont pas compatibles entre les différentes versions de la base de données.

    Si vous souhaitez utiliser des expressions régulières avec la version 9.1 de PostgreSQL ou avec une version supérieure, vous devez :

    • durant la configuration de la base de données PostgreSQL, définir le paramètre standard_conforming_strings à off et saisir une double barre oblique inversée dans la définition, ou,

    • dans le champ Regular expression de l'assistant, utiliser une seule barre oblique inversée dans la définition de l'expression.

    Pour plus d'informations concernant les expressions régulières dans PostgreSQL, cliquez sur Window > Show View, développez Help et sélectionnez Bookmarks.

  8. Dans la liste Language Selection, sélectionnez la base de données dans laquelle vous souhaitez utiliser la nouvelle expression régulière.

  9. Cliquez sur Finish pour fermer l'assistant.

    Un sous-dossier pour le nouveau modèle est listé dans le dossier Regex, dans le même fichier que le modèle initial. L'éditeur de modèle s'ouvre sur les métadonnées et la définition du modèle

Générer une expression régulière à partir de la Table de Fréquence des modèles de date

La perspective Profiling du studio vous permet de générer un modèle régulier à partir des résultats d'une analyse utilisant l'indicateur Date Pattern Frequency Table sur une colonne de date.

Prérequis : Dans la perspective Profiling du studio, une analyse de colonne(s) utilisant l'indicateur Date Pattern Frequency Table doit avoir été créée sur une colonne de date.

Avertissement

Pour pouvoir utiliser l'indicateur Date Pattern Frequency Table sur des colonnes de dates, vous devez définir le moteur d'exécution comme étant Java, dans la vue Analysis Parameter de l'éditeur d'analyse de colonne(s). Pour plus d'informations concernant les moteurs d'exécution, consultez Utiliser le moteur Java ou SQL.

Pour plus d'informations concernant la création d'une analyse de colonne(s), consultez Créer une analyse simple sur une colonne d'une base de données.

Pour générer une expression régulière à partir des résultats d'une analyse de colonne(s), procédez comme suit :

  1. Dans la vue DQ Repository, cliquez-droit sur l'analyse de colonne(s) utilisant l'indicateur de date sur une colonne de date.

  2. Sélectionnez Open dans le menu contextuel pour ouvrir l'éditeur d'analyse correspondant.

  3. Appuyez sur F6 pour exécuter l'analyse et afficher les résultats dans le panneau Graphics à droite du Studio.

  4. Au bas de l'éditeur, cliquez sur l'onglet Analysis Results pour afficher une vue plus détaillée des résultats.

    Dans cet exemple, 100.00% des valeurs de date suivent le modèle yyyy MM dd et 39.41% suivent le modèle yyyy dd MM.

  5. Cliquez-droit sur la valeur de date pour laquelle vous souhaitez générer une expression régulière et sélectionnez Generate Regex Pattern dans le menu contextuel.

    La boîte de dialogue [New Regex Pattern] s'ouvre.

  6. Cliquez sur Next.

    L'expression régulière de date est déjà définie dans le champ correspondant.

  7. Cliquez sur Finish.

    L'éditeur de modèle s'ouvre avec les métadonnées définies et la définition du modèle généré.