Propriétés du tVerifyEmail pour Apache Spark Batch - 7.0

Email validation

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de validation > Composants de validation d'e-mails
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de validation > Composants de validation d'e-mails
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de validation > Composants de validation d'e-mails
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tVerifyEmail s'exécutant dans le framework de Jobs Spark Batch.

Le composant tVerifyEmail Spark Batch appartient à la famille Data Quality.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

 

Built-In : le schéma est créé et conservé ponctuellement pour ce composant seulement. Consultez également : le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Consultez également : le Guide utilisateur du Studio Talend .

Edit Schema

Cliquez sur Edit schema pour modifier le schéma. Notez que si vous effectuez des modifications, le schéma passe automatiquement en type built-in.

Le schéma de sortie du tVerifyEmail contient différentes colonnes en lecture seule, selon les options sélectionnées dans la vue Basic settings du composant. Les colonnes de sortie en lecture seule sont les suivantes :

VerificationLevel : fournit le statut de vérification des adresses e-mail traitées comme suit :

-VALID : signifie que l'adresse e-mail est conforme à la règle définie.

-INVALID : signifie que l'adresse e-mail n'est pas conforme à la règle définie.

-CORRECTED : signifie que l'adresse e-mail d'entrée n'est pas conforme à la règle définie et a été corrigée à l'aide du contenu des colonnes sélectionnées. Cette colonne est disponible uniquement lorsque vous sélectionnez l'option Use column content dans la section LOCAL Part Options.

-VERIFIED : signifie que les adresses existent dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

-REJECTED : signifie que l'adresse e-mail n'existe pas dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

Suggested_Email : suggère un contenu pour la partie précédant le caractère @. La chaîne de caractères de l'e-mail est construite grâce aux colonnes sélectionnées dans la vue Use column content.

Column to validate

Sélectionnez dans la liste la colonne que vous souhaitez valider avec le tVerifyEmail.

Check the entire email with regular expression

Cochez cette case si vous souhaitez mettre en correspondance l'adresse e-mail complète et une expression régulière spécifique.

Complete regular expression : saisissez l'expression régulière par rapport à laquelle vous souhaitez mettre en correspondance les adresses e-mail.

Cette mise en correspondance est la première étape d'optimisation du processus de consolidation et permet d'exclure les adresses contenant des erreurs, avant d'aller plus loin dans la consolidation des parties locales et relatives au domaine des adresses e-mail.

LOCAL Part Options

Les champs de cette vue varient selon l'option sélectionnée. "LOCAL part" dans une adresse e-mail fait référence aux caractères précédent le "@".

-Use regular expression : saisissez, dans le champ Pattern, l'expression par rapport à laquelle vérifier la partie locale d'une adresse e-mail.

-Use simplified pattern : saisissez, dans le champ Pattern, le modèle simplifié par rapport auquel vérifier la partie locale de l'adresse e-mail. Sélectionnez l'option Show syntax of simplified pattern pour afficher la syntaxe à utiliser avec une description. Pour plus d'informations sur la syntaxe, consultez Syntaxe du modèle simplifié à utiliser avec le tVerifyEmail.

-Use column content : utilisez les champs de cette vue afin de décider du contenu par rapport auquel vérifier la partie locale de l'adresse e-mail. Si la partie locale ne correspond pas à ce que vous avez défini, elle sera réécrite à l'aide du contenu des champs.

-Enable case-sensitive pattern matching : cochez cette case pour rendre sensible à la casse la mise en correspondance des modèles pour la partie locale des adresses e-mail. La sensibilité à la casse de la mise en correspondance des modèles peut être utilisée avec chacune des options ci-dessus.

DOMAIN Part Options

Les champs dans cette vue varient selon l'option sélectionnée.

-Check the Top-level Domains and the following ones : cochez cette case afin de vérifier la partie de l'adresse e-mail suivant le dernier point. Vous pouvez utiliser la table Additional Top-level Domains pour ajouter des domaines de premier niveau supplémentaires par rapport auxquels vous souhaitez valider les adresses e-mail.

-Check domains with a black list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste noire, dans la table Domains.

-Check domains with a white list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste blanche, dans la table Domains.

Global Variables

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez d'autres distributions, utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.