tPatternExtract - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tPatternExtract

Famille du composant

Data Quality

 

Fonction

Le tPatternExtract extrait d'une colonne toutes les chaînes de caractères qui correspondent à une expression régulière Java.

Objectif

Le tPatternExtract vous permet d'écrire toutes les données qui correspondent à un modèle donné. Vous pouvez implémenter tout type d'opération nécessaire sur les données extraites.

Basic settings

Column to check

Sélectionnez la colonne que vous souhaitez analyser.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

Pattern type

Sélectionnez dans la liste le modèle avec lequel vous voulez comparer les données.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

NB_LINE_OK : nombre de lignes correspondant à un modèle donné. Cette variable est une variable After et retourne un nombre entier.

NB_LINE_REJECT : nombre de lignes ne correspondant pas à un modèle donné. Cette variable est une variable After et retourne un nombre entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant peut être utilisé comme composant de début ou intermédiaire. Il requiert un flux de sortie.

Scénario : Extraire uniquement les données qui correspondent à un modèle défini d'un fichier délimité

Ce scénario décrit un Job à quatre composants, dans lequel le composant tExtractPattern est utilisé afin d'extraire uniquement les adresses e-mail des clients (qui correspondent au modèle Email address) d'un fichier délimité contenant différentes données sur les clients. Il écrit ensuite les données extraites dans un autre fichier délimité. Un composant tFilterColumns est utilisé pour adapter le schéma de sortie.

Construire le Job

  1. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tPatternExtract, un tFilterColumns et un tFileOutputDelimited.

  2. Connectez le composant tFileInputDelimited au composant tPatternExtract à l'aide d'un lien Row > Main.

  3. Reliez le composant tPatternExtract au tFilterColumns à l'aide d'un lien Row > Matching Data.

  4. Reliez le composant tFilterColumns au tFileOutputDelimited à l'aide d'un lien Row > Main.

Configurer les composants

  1. Double-cliquez sur le tFileInputDelimited afin d'afficher sa vue Basic settings et définir ses propriétés. Saisissez le nom du fichier d'entrée, le nombre de lignes d'en-tête à ignorer et définissez le schéma.

    Dans ce scénario, le fichier délimité contient les noms, les adresses e-mail et les numéros de téléphone dans une seule colonne : Name_Telephone_Address. La capture d'écran suivante montre un extrait du fichier d'entrée.

    Définissez comme suit le schéma d'entrée :

  2. Double-cliquez sur le tPatternExtract afin d'afficher sa vue Basic settings et définir ses propriétés.

  3. Dans la liste Column to check, sélectionnez la colonne dont vous voulez vérifier les données, par rapport au modèle défini, Name_Telephone_Address dans cet exemple.

  4. Dans la liste Pattern type, sélectionnez le modèle en accord avec lequel vous souhaitez extraire les données, /Regex/internet/Email Address dans cet exemple.

  5. Dans la vue Basic settings du composant tFilterColumns, cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  6. Sélectionnez la colonne qui vous intéresse dans le schéma d'entrée puis cliquez sur la flèche pointant vers la droite afin de copier la colonne dans le schéma de sortie. Cliquez sur OK pour fermer la boîte de dialogue.

  7. Double-cliquez sur le tFileOutputDelimited afin d'afficher sa vue Basic settings et définir ses propriétés.

  8. Dans le champ File Name, spécifiez le chemin d'accès au fichier dans lequel vous souhaitez écrire vos données de sortie.

  9. Définissez les séparateurs de lignes et de champs, au besoin. Dans cet exemple, l'objectif est de séparer les adresses e-mail des clients par un point virgule.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Les adresses e-mail des clients sont extraites de la colonne sélectionnée, selon le modèle Email défini, et écrites dans le fichier de sortie, séparées par un point virgule. Vous pouvez, par exemple, envoyer un mail à tous vos clients en une seule fois.