Scénario : Extraire uniquement les données qui correspondent à un modèle défini d'un fichier délimité - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à quatre composants, dans lequel le composant tExtractPattern est utilisé afin d'extraire uniquement les adresses e-mail des clients (qui correspondent au modèle Email address) d'un fichier délimité contenant différentes données sur les clients. Il écrit ensuite les données extraites dans un autre fichier délimité. Un composant tFilterColumns est utilisé pour adapter le schéma de sortie.

Construire le Job

  1. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tPatternExtract, un tFilterColumns et un tFileOutputDelimited.

  2. Connectez le composant tFileInputDelimited au composant tPatternExtract à l'aide d'un lien Row > Main.

  3. Reliez le composant tPatternExtract au tFilterColumns à l'aide d'un lien Row > Matching Data.

  4. Reliez le composant tFilterColumns au tFileOutputDelimited à l'aide d'un lien Row > Main.

Configurer les composants

  1. Double-cliquez sur le tFileInputDelimited afin d'afficher sa vue Basic settings et définir ses propriétés. Saisissez le nom du fichier d'entrée, le nombre de lignes d'en-tête à ignorer et définissez le schéma.

    Dans ce scénario, le fichier délimité contient les noms, les adresses e-mail et les numéros de téléphone dans une seule colonne : Name_Telephone_Address. La capture d'écran suivante montre un extrait du fichier d'entrée.

    Définissez comme suit le schéma d'entrée :

  2. Double-cliquez sur le tPatternExtract afin d'afficher sa vue Basic settings et définir ses propriétés.

  3. Dans la liste Column to check, sélectionnez la colonne dont vous voulez vérifier les données, par rapport au modèle défini, Name_Telephone_Address dans cet exemple.

  4. Dans la liste Pattern type, sélectionnez le modèle en accord avec lequel vous souhaitez extraire les données, /Regex/internet/Email Address dans cet exemple.

  5. Dans la vue Basic settings du composant tFilterColumns, cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  6. Sélectionnez la colonne qui vous intéresse dans le schéma d'entrée puis cliquez sur la flèche pointant vers la droite afin de copier la colonne dans le schéma de sortie. Cliquez sur OK pour fermer la boîte de dialogue.

  7. Double-cliquez sur le tFileOutputDelimited afin d'afficher sa vue Basic settings et définir ses propriétés.

  8. Dans le champ File Name, spécifiez le chemin d'accès au fichier dans lequel vous souhaitez écrire vos données de sortie.

  9. Définissez les séparateurs de lignes et de champs, au besoin. Dans cet exemple, l'objectif est de séparer les adresses e-mail des clients par un point virgule.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Les adresses e-mail des clients sont extraites de la colonne sélectionnée, selon le modèle Email défini, et écrites dans le fichier de sortie, séparées par un point virgule. Vous pouvez, par exemple, envoyer un mail à tous vos clients en une seule fois.