Scénario : Se connecter à un service Web et retourner une liste d'expressions régulières - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario comporte un Job Java à trois composants, créé dans le Studio Talend.

Ce scénario :

  • utilise le composant tFindRegexlibExpression pour se connecter à un serveur Web et collecter toutes les expressions régulières qui contiennent le mot "email" dans leur description,

  • utilise le composant tMap afin de réorganiser les données d'entrée dans le flux de sortie et également de concaténer les deux champs du flux d'entrée en une seule colonne de sortie,

  • et écrit ensuite toutes les expressions collectées dans un fichier .csv.

Ce Job peut être généré automatiquement depuis le noeud Patterns > Regex dans la vue DQ Repository. Pour plus d'informations concernant la génération d'un Job afin de récupérer des expressions régulières, consultez le Guide utilisateur du Studio Talend.

  1. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tFindRegexlibExpressions, tMap et tFileOutputDelimited.

  2. Double-cliquez sur le composant tFindRegexlibExpressions afin d'ouvrir sa vue Basic settings et définir ses propriétés.

    Le schéma de ce composant est en lecture seule et contient les champs suivants : Title, Expression, Description, Matches, Non-Matches, Author, Rating et Relative_path (Titre, Expression, Description, Correspondances, Non-correspondances, Auteur, Note et Chemin_relatif).

  3. Dans le champ Regexp Substring, définissez l'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

  4. Dans le champ Key Words, définissez le(s) mot(s)-clé que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

  5. Dans le champ Min Rate, définissez la note d'expression régulière que vous souhaitez utiliser comme filtre sur la liste des expressions régulières.

Dans ce scénario, l'objectif est de faire en sorte que le tFindRegexlibExpressions collecte toutes les expressions régulières du serveur Web ayant le mot "email" dans leur champ Description, et celles dont la note est de 1 minimum.

  1. Connectez le tFindRegexlibExpressions et le tMap, à l'aide d'un lien Row Main.

  2. Double-cliquez sur le composant tMap afin d'ouvrir son éditeur et d'effectuer la réorganisation nécessaire des champs, ainsi que leur concaténation.

  3. Dans l'éditeur du tMap, cliquez sur le bouton [+], en haut à droite, pour ouvrir une boîte de dialogue où vous pourrez nommer la nouvelle table de sortie, regex dans ce scénario.

    Cela va créer un nouveau lien au tMap, portant le même nom, que vous allez utiliser pour connecter le tMap au composant suivant.

  4. Dans le coin en bas à droite de l'éditeur, cliquez sur le bouton [+], afin de définir les champs de la table de sortie regex.

  5. Dans la moitié supérieure de l'éditeur, glissez les champs de la table d'entrée afin de remplir les champs du schéma de sortie, comme nécessaire. Pour plus d'informations à propos du mapping de données, consultez le Guide utilisateur du Studio Talend.

Dans ce scénario, l'objectif est de concaténer les champs Matches et Non-Matches du flux d'entrée en une seule colonne de sortie : Purpose (Objectif) et également d'obtenir une nouvelle colonne dans le schéma de sortie, appelée Path (chemin d'accès). Par ailleurs, le but n'est pas d'avoir d'informations sur les notes dans le schéma de sortie.

  1. Cliquez sur OK pour valider et fermer l'éditeur du tMap.

  2. Cliquez-droit sur le tMap, et sélectionnez le lien regex pour connecter le tMap au tFileOutputDelimited.

  3. Double-cliquez sur le tFileOutputDelimited afin d'afficher ses Basic settings et définir ses propriétés.

  1. Cliquez sur le bouton [...], à côté du champ File Name, pour sélectionner le fichier dans lequel vous souhaitez écrire les données de sortie.

  2. Définissez les séparateurs de lignes et de champs, dans les champs Row Separator et Field Separator, respectivement.

  3. Cochez la case Append si vous voulez ajouter les nouvelles lignes à la fin des enregistrements.

  4. Cochez la case Include Header si vous souhaitez inclure les libellés des colonnes dans les données de sortie.

  5. Au besoin, cliquez sur le bouton Edit schema pour voir les flux d'entrée et de sortie.

  1. Cliquez sur Ctrl+s pour sauvegarder votre Job.

  2. Appuyez sur F6 afin de l'exécuter.

Le tFindRegexlibExpressions se connecte au serveur Web et collecte les expressions régulières qui correspondent à la requête, le tMap réorganise et concatène les fichiers, puis passe le flux de sortie au tFileOutputDelimited. Le fichier de sortie ressemblera à ceci :

Vous pourrez ensuite importer toutes les expressions régulières collectées depuis un fichier .csv bien formaté, dans le Studio Talend. Pour plus d'informations sur l'import de modèles, consultez le Guide utilisateur du Studio Talend.