Propriétés du tVerifyEmail pour Apache Spark Batch - Cloud - 8.0

Validation d'e-mail (Email validation)

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration) > Composants de validation d'e-mails
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration) > Composants de validation d'e-mails
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration) > Composants de validation d'e-mails
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le tVerifyEmail s'exécutant dans le framework de Jobs Spark Batch.

Le composant tVerifyEmail Spark Batch appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Edit Schema

Créez le schéma en cliquant sur le bouton Edit Schema. Si vous effectuez des modifications, le schéma passe automatiquement en type built-in.

Le schéma de sortie du tVerifyEmail contient différentes colonnes en lecture seule, selon les options sélectionnées dans la vue Basic settings du composant. Les colonnes de sortie en lecture seule sont les suivantes :

VerificationLevel : fournit le statut de vérification des adresses e-mail traitées comme suit :

-VALID : signifie que l'adresse e-mail est conforme à la règle définie.

-INVALID : signifie que l'adresse e-mail n'est pas conforme à la règle définie.

-CORRECTED : signifie que l'adresse e-mail d'entrée n'est pas conforme à la règle définie et a été corrigée à l'aide du contenu des colonnes sélectionnées. Cette colonne est disponible uniquement lorsque vous sélectionnez l'option Use column content dans la section LOCAL Part Options.

-VERIFIED : signifie que les adresses existent dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

-REJECTED : signifie que l'adresse e-mail n'existe pas dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée.

Suggested_Email : suggère un contenu pour la partie précédant le caractère @. La chaîne de caractères de l'e-mail est construite grâce aux colonnes sélectionnées dans la vue Use column content.

Column to validate

Sélectionnez dans la liste la colonne que vous souhaitez valider avec le tVerifyEmail.

Check the entire email with regular expression

Cochez cette case si vous souhaitez mettre en correspondance l'adresse e-mail complète et une expression régulière spécifique.

Complete regular expression : saisissez l'expression régulière par rapport à laquelle vous souhaitez mettre en correspondance les adresses e-mail.

Ce rapprochement est la première étape d'optimisation du processus de consolidation et permet d'exclure les adresses contenant des erreurs, avant d'aller plus loin dans la consolidation des parties locales et relatives au domaine des adresses e-mail.

LOCAL Part Options

Les champs de cette vue varient selon l'option sélectionnée. "LOCAL part" dans une adresse e-mail fait référence aux caractères précédent le "@".

-Use regular expression : saisissez, dans le champ Pattern, l'expression par rapport à laquelle vérifier la partie locale d'une adresse e-mail.

-Use simplified pattern : saisissez, dans le champ Pattern, le modèle simplifié par rapport auquel vérifier la partie locale de l'adresse e-mail. Sélectionnez l'option Show syntax of simplified pattern pour afficher la syntaxe à utiliser avec une description. Pour plus d'informations concernant la syntaxe, consultez Syntaxe du modèle simplifié à utiliser avec le tVerifyEmail.

-Use column content : utilisez les champs de cette vue afin de décider du contenu par rapport auquel vérifier la partie locale de l'adresse e-mail. Si la partie locale ne correspond pas à ce que vous avez défini, elle sera réécrite à l'aide du contenu des champs.

-Enable case-sensitive pattern matching : cochez cette case pour rendre sensible à la casse le rapprochement des modèles pour la partie locale des adresses e-mail. La sensibilité à la casse du rapprochement des modèles peut être utilisée avec chacune des options ci-dessus.

DOMAIN Part Options

Les champs dans cette vue varient selon l'option sélectionnée.

-Check the Top-level Domains and the following ones : cochez cette case afin de vérifier la partie de l'adresse e-mail suivant le dernier point. Vous pouvez utiliser la table Additional Top-level Domains pour ajouter des domaines de premier niveau supplémentaires par rapport auxquels vous souhaitez valider les adresses e-mail.

-Check domains with a black list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste de blocage, dans la table Domains.

-Check domains with a white list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste d'autorisation, dans la table Domains.

Global Variables

Variables globales

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Utilisation

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.