tFindRegexlibExpressions - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tFindRegexlibExpressions

Famille du composant

Data Quality

 

Fonction

Le tFindRegexlibExpressions se connecte à un service Web, sur http://regexlib.com afin d'obtenir une liste d'expressions régulières dans tous les langages, même ceux qui ne sont pas supportés par Talend.

Objectif

Le tFindRegexlibExpressions retourne un ensemble de données contenant des informations à propos des expressions régulières qui correspondent à la requête envoyée au serveur Web.

Basic settings

Schema et Edit Schema

Ces champs sont en lecture seule. Le schéma du composant contient les champs suivants : Title, Expression, Description, Matches, Non-Matches, Author, Rating (Titre, Expression, Description, Correspondances, Non-correspondances, Auteur, Note).

 

Regexp Substring

Définissez l'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières à retourner.

 

Key Words

Saisissez le(s) mot(s)-clé que vous souhaitez utiliser comme filtre sur la liste des expressions régulières à retourner. Les mots-clés doivent être séparés par une virgule.

 

Min Rate

Définissez la note d'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières à retourner.

 

Relative path

Saisissez le chemin d'accès relatif au dossier du modèle que vous voulez créer sous le nœud Pattern > Regex dans la vue DQ Repository afin de conserver les modèles récupérés. Par exemple, vous devez créer un dossier nommé phone avec un sous-dossier uk pour les modèles de numéros de téléphone utilisés au Royaume-Uni. Saisissez "phone/uk" dans le champ Relative path.

Afin de créer définitivement le dossier du modèle dans la vue DQ Repository, vous devez importer l'expression régulière récupérée ayant été stockée dans un fichier .csv. Pour plus d'informations concernant l'import d'expressions régulières à partir d'un fichier .csv, consultez le Guide utilisateur du Studio Talend.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant d'entrée. Il requiert un flux de sortie, habituellement un fichier .csv. Vous pourrez importer ensuite toutes les expressions collectées depuis un fichier .csv avec un format correct dans le studio de Studio Talend.

Pour plus d'informations sur l'import des modèles, consultez le Guide utilisateur du Studio Talend.

Scénario : Se connecter à un service Web et retourner une liste d'expressions régulières

Ce scénario comporte un Job Java à trois composants, créé dans le Studio Talend.

Ce scénario :

  • utilise le composant tFindRegexlibExpression pour se connecter à un serveur Web et collecter toutes les expressions régulières qui contiennent le mot "email" dans leur description,

  • utilise le composant tMap afin de réorganiser les données d'entrée dans le flux de sortie et également de concaténer les deux champs du flux d'entrée en une seule colonne de sortie,

  • et écrit ensuite toutes les expressions collectées dans un fichier .csv.

Ce Job peut être généré automatiquement depuis le noeud Patterns > Regex dans la vue DQ Repository. Pour plus d'informations concernant la génération d'un Job afin de récupérer des expressions régulières, consultez le Guide utilisateur du Studio Talend.

  1. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tFindRegexlibExpressions, tMap et tFileOutputDelimited.

  2. Double-cliquez sur le composant tFindRegexlibExpressions afin d'ouvrir sa vue Basic settings et définir ses propriétés.

    Le schéma de ce composant est en lecture seule et contient les champs suivants : Title, Expression, Description, Matches, Non-Matches, Author, Rating et Relative_path (Titre, Expression, Description, Correspondances, Non-correspondances, Auteur, Note et Chemin_relatif).

  3. Dans le champ Regexp Substring, définissez l'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

  4. Dans le champ Key Words, définissez le(s) mot(s)-clé que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

  5. Dans le champ Min Rate, définissez la note d'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

Dans ce scénario, l'objectif est de faire en sorte que le tFindRegexlibExpressions collecte toutes les expressions régulières du serveur Web ayant le mot "email" dans leur champ Description, et celles dont la note est de 1 minimum.

  1. Connectez le tFindRegexlibExpressions et le tMap, à l'aide d'un lien Row Main.

  2. Double-cliquez sur le composant tMap afin d'ouvrir son éditeur et d'effectuer la réorganisation nécessaire des champs, ainsi que leur concaténation.

  3. Dans l'éditeur du tMap, cliquez sur le bouton [+], en haut à droite, pour ouvrir une boîte de dialogue où vous pourrez nommer la nouvelle table de sortie, regex dans ce scénario.

    Cela va créer un nouveau lien au tMap, portant le même nom, que vous allez utiliser pour connecter le tMap au composant suivant.

  4. Dans le coin en bas à droite de l'éditeur, cliquez sur le bouton [+], afin de définir les champs de la table de sortie regex.

  5. Dans la moitié supérieure de l'éditeur, glissez les champs de la table d'entrée afin de remplir les champs du schéma de sortie, comme nécessaire. Pour plus d'informations à propos du mapping de données, consultez le Guide utilisateur du Studio Talend.

Dans ce scénario, l'objectif est de concaténer les champs Matches et Non-Matches du flux d'entrée en une seule colonne de sortie : Purpose (Objectif) et également d'obtenir une nouvelle colonne dans le schéma de sortie, appelée Path (chemin d'accès). Par ailleurs, le but n'est pas d'avoir d'informations sur les notes dans le schéma de sortie.

  1. Cliquez sur OK pour valider et fermer l'éditeur du tMap.

  2. Cliquez-droit sur le tMap, et sélectionnez le lien regex pour connecter le tMap au tFileOutputDelimited.

  3. Double-cliquez sur le tFileOutputDelimited afin d'afficher ses Basic settings et définir ses propriétés.

  1. Cliquez sur le bouton [...], à côté du champ File Name, pour sélectionner le fichier dans lequel vous souhaitez écrire les données de sortie.

  2. Définissez les séparateurs de lignes et de champs, dans les champs Row Separator et Field Separator, respectivement.

  3. Cochez la case Append si vous voulez ajouter les nouvelles lignes à la fin des enregistrements.

  4. Cochez la case Include Header si vous souhaitez inclure les libellés des colonnes dans les données de sortie.

  5. Au besoin, cliquez sur le bouton Edit schema pour voir les flux d'entrée et de sortie.

  1. Cliquez sur Ctrl+s pour sauvegarder votre Job.

  2. Appuyez sur F6 afin de l'exécuter.

Le tFindRegexlibExpressions se connecte au serveur Web et collecte les expressions régulières qui correspondent à la requête, le tMap réorganise et concatène les fichiers, puis passe le flux de sortie au tFileOutputDelimited. Le fichier de sortie ressemblera à ceci :

Vous pourrez ensuite importer toutes les expressions régulières collectées depuis un fichier .csv bien formaté, dans le Studio Talend. Pour plus d'informations sur l'import de modèles, consultez le Guide utilisateur du Studio Talend.