tVerifyEmail - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Fonction

Le composant tVerifyEmail vérifie et formate des adresses e-mail par rapport à des modèles et des expressions régulières.

Objectif

Le tVerifyEmail vous permet de vérifier si une adresse e-mail est conforme aux règles spécifiques et de corriger les adresses ne correspondant pas aux règles, en utilisant le contenu de colonnes spécifiques.

Syntaxe du modèle simplifié à utiliser avec le tVerifyEmail

tVerifyEmail vérifie la partie locale d'adresses e-mail par rapport à un modèle simplifié.

Le tableau suivant liste les éléments de syntaxe du modèle simplifié.

Syntaxe

Regex équivalente

Description

9

[0-9]

Un chiffre

a

[a-z]

Une lettre ASCII en minuscules

A

[A-Z]

Une lettre ASCII en majuscules

w

[a-z]+

Une ou plusieurs lettres ASCII en minuscules

W

[A-Z]+

Une ou plusieurs lettres ASCII en majuscules

?

.

Tout caractère

*

.*

Toute chaîne de caractères

.

\.

Point

[-_+]

[-_+]

Tout symbole présent entre les crochets

<pattern>

modèle

Toute expression régulière standard présente entre les chevrons

Propriétés du tVerifyEmail

Famille du composant

Data Quality

 

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur le bouton [...] et définissez le schéma d'entrée et le schéma de sortie des adresses e-mail.

Le schéma de sortie du tVerifyEmail contient différentes colonnes en lecture seule, selon les options sélectionnées dans la vue Basic settings du composant. Les colonnes de sortie en lecture seule sont les suivantes :

VerificationLevel : fournit le statut de vérification des adresses e-mail traitées comme suit :

-VALID : signifie que l'adresse e-mail est conforme à la règle définie.

-INVALID : signifie que l'adresse e-mail n'est pas conforme à la règle définie.

-CORRECTED : signifie que l'adresse e-mail d'entrée n'est pas conforme à la règle définie et a été corrigée à l'aide du contenu des colonnes sélectionnées. Cette colonne est disponible uniquement lorsque vous sélectionnez l'option Use column content dans la section LOCAL Part Options.

-VERIFIED : signifie que les adresses existent dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

-REJECTED : signifie que l'adresse e-mail n'existe pas dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

Suggested_Email : suggère un contenu pour la partie précédant le caractère @. La chaîne de caractères de l'e-mail est construite grâce aux colonnes sélectionnées dans la vue Use column content.

 

Column to validate

Sélectionnez dans la liste la colonne que vous souhaitez valider avec le tVerifyEmail.

 

Check the entire email with regular expression

Cochez cette case si vous souhaitez mettre en correspondance l'adresse e-mail complète et une expression régulière spécifique.

Complete regular expression : saisissez l'expression régulière par rapport à laquelle vous souhaitez mettre en correspondance les adresses e-mail.

Cette mise en correspondance est la première étape d'optimisation du processus de consolidation et permet d'exclure les adresses contenant des erreurs, avant d'aller plus loin dans la consolidation des parties locales et relatives au domaine des adresses e-mail.

 

LOCAL Part Options

Les champs de cette vue varient selon l'option sélectionnée. "LOCAL part" dans une adresse e-mail fait référence aux caractères précédent le "@".

-Use regular expression : saisissez, dans le champ Pattern, l'expression par rapport à laquelle vérifier la partie locale d'une adresse e-mail.

-Use simplified pattern : saisissez, dans le champ Pattern, le modèle simplifié par rapport auquel vérifier la partie locale de l'adresse e-mail. Sélectionnez l'option Show syntax of simplified pattern pour afficher la syntaxe à utiliser avec une description. Pour plus d'informations sur la syntaxe, consultez Syntaxe du modèle simplifié à utiliser avec le tVerifyEmail.

-Use column content : utilisez les champs de cette vue afin de décider du contenu par rapport auquel vérifier la partie locale de l'adresse e-mail. Si la partie locale ne correspond pas à ce que vous avez défini, elle sera réécrite à l'aide du contenu des champs.

-Enable case-sensitive pattern matching : cochez cette case pour rendre sensible à la casse la mise en correspondance des modèles pour la partie locale des adresses e-mail. La sensibilité à la casse de la mise en correspondance des modèles peut être utilisée avec chacune des options ci-dessus.

 

DOMAIN Part Options

Les champs dans cette vue varient selon l'option sélectionnée.

-Check the Top-level Domains and the following ones : cochez cette case afin de vérifier la partie de l'adresse e-mail suivant le dernier point. Vous pouvez utiliser la table Additional Top-level Domains pour ajouter des domaines de premier niveau supplémentaires par rapport auxquels vous souhaitez valider les adresses e-mail.

-Check domains with a black list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste noire, dans la table Domains.

-Check domains with a white list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste blanche, dans la table Domains.

 

Check with mail server callback

Cochez cette case afin d'activer la vérification des adresses e-mail par le serveur SMTP.

Avec cette technique, le serveur e-mail vérifie l'adresse complète (les parties avant et après le caractère @). Il établit une connexion SMTP au Mail Exchanger (MX) de l'adresse e-mail. Il interroge ensuite le Mail Exchanger et s'assure d'accepter l'adresse comme valide. Cela est fait de la même manière qu'un envoi d'e-mail à l'adresse, mais le processus s'arrête après acceptation ou rejet de l'adresse par le Mail Exchanger.

Il n'est pas recommandé d'activer la vérification SMTP lorsqu'il y a de nombreuses adresses e-mail avec différents domaines à vérifier, car certains serveurs e-mail peuvent ne pas répondre correctement ou même ajouter votre adresse IP à leur liste noire.

La liste suivante présente des situations dans lesquelles la vérification SMTP peut ne pas fonctionner correctement :

- lorsque le serveur e-mail nécessite une authentification,

- lorsque le serveur e-mail a une politique de sécurité pouvant ajouter votre adresse IP sur une liste noire et rejeter vos requêtes,

- lorsque le serveur e-mail est trop long à répondre (time out),

- toute autre exception inattendue générée par le serveur e-mail.

Dans tous ces cas, les résultats du composant prennent uniquement en compte les résultats des autres règles configurées dans les paramètres du composant.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire et nécessite un flux d'entrée et un flux de sortie.

Limitation

n/a

Scénario : Vérifier des adresses e-mail par rapport au contenu d'une colonne et à des noms de domaine

Ce scénario décrit un Job utilisant :

  • un composant tFixedFlowInput pour générer des adresses e-mail à analyser,

  • un tVerifyEmail pour formater les adresses e-mail via l'API d'e-mails Talend,

  • un tFileOutputExcel pour écrire en sortie les données formatées dans un fichier .xls.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tVerifyEmail et un tFileOutputExcel.

  2. Reliez les trois composants à l'aide de liens Row > Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma en cliquant sur le bouton [...] à côté du champ Edit schema.

    Dans la boîte de dialogue, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront vos données d'adresses d'entrée. Dans cet exemple, ajoutez firstname, lastname et email.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Table.

  6. Dans la table Inline table, utilisez le bouton [+] pour ajouter des lignes à la table et saisissez les données d'adresses à analyser.

Vérifier et formater les adresses e-mail

  1. Double-cliquez sur le tVerifyEmail pour afficher sa vue Basic settings et définir ses propriétés.

  2. Si nécessaire, cliquez sur Sync columns afin de récupérer le schéma défini dans le composant d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir le schéma.

    Le tVerifyEmail contient des colonnes d'adresses en lecture seule, comme dans la capture d'écran ci-dessous.

    La colonne VerificationLevel retourne le statut de vérification des adresses e-mail d'entrée. La colonne SuggestedEmail retourne un contenu suggéré pour la partie de l'e-mail précédant le caractère @. Cette colonne s'affiche dans le schéma de sortie uniquement lorsque vous sélectionnez l'option Use column content dans la section LOCAL Part Options. Pour plus d'informations concernant les colonnes de sortie, consultez Propriétés du tVerifyEmail.

  4. Déplacez dans le schéma de sortie la ou les colonnes d'entrée que vous souhaitez afficher dans les résultats de la vérification, cliquez sur OK et acceptez la propagation des modifications.

  5. Dans la liste Column to validate, sélectionnez la colonne email.

  6. Dans la section LOCAL Part Options, sélectionnez l'option Use column content.

    Dans cet exemple, vérifiez la partie de l'adresse e-mail précédant le caractère @ afin de vous assurer qu'elle se compose bien de la première lettre du prénom, suivie du nom de famille, tout en minuscules. Si la partie locale ne correspond pas à ce que vous avez défini, le tVerifyEmail la réécrit en respectant les paramètres définis.

  7. Dans la section DOMAIN Part Options :

    • cochez la case Check the default Top-level Domains and the following ones et définissez dans la table les domaines de haut niveau supplémentaires par rapport auxquels vous souhaitez valider les adresses e-mail.

    • sélectionnez l'option Check domains with a black list et définissez dans la table Domain list le domaine à considérer comme figurant sur la liste noire.

  8. Cochez la case Check with mail server callback pour permettre au serveur e-mail de vérifier l'adresse complète et d'accepter ou rejeter l'e-mail.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le tFileOutputExcel pour afficher sa vue Basic settings et définir ses propriétés.

  2. Configurez le nom du fichier de destination ainsi que le nom de la feuille et cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le tVerifyEmail analyse les adresses e-mail et corrige celles qui ne correspondent pas aux paramètres définis pour les options de la partie locale et de la partie du domaine.

  4. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les adresses e-mail formatées.

    Le tVerifyEmail met en correspondance les adresses d'entrée par rapport à la règle définie dans la section LOCAL part options et aux paramètres définis pour les noms de domaine.

    La colonne de sortie VerificationLevel retourne le statut VALID, INVALID, CORRECTED ou REJECTED selon ce que vous avez configuré/sélectionné dans l'onglet Basic settings du tVerifyEmail.

    Toutes les adresses e-mail ayant le libellé CORRECTED ont des adresses suggérées dans la colonne de sortie SuggestedEmail.