Scénario : Lire des adresses e-mail d'une table d'une base de données et récupérer des données spécifiques, notamment des lignes invalides - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario est un Job à deux composants créé dans le Studio Talend. Dans ce Job, le tMySQLInvalidRows lit des adresses e-mail des gens d'un pays spécifique, d'une table d'une base de données MySQL, filtre les données à l'aide d'une clause WHERE afin de réduire le processus de validation, vérifie la valeur des adresses e-mails, par rapport aux modèles de Studio Talend donnés, et extrait les données, notamment les lignes invalides, puis les affiche dans la console.

Ci-dessous est la table de la base de données que vous utilisez dans l'exemple. Certains clients habitent aux Etats-Unis et d'autres au Canada. La colonne Email contient des données invalides. Le composant tMySQLInvalidRows filtre les données dans la colonne Email afin de lire uniquement les adresses e-mails des clients des Etats-Unis, puis valide ces adresses par rapport au modèle EmailAddress.

Dans ce scénario, vous avez déjà stocké les schémas de la table d'entrée dans le Repository. Pour plus d'informations sur le stockage des schémas de métadonnées dans l'arborescence du Repository, consultez le Guide utilisateur du Studio Talend.

Construire le Job

  1. Dans l'arborescence du Repository, développez les nœuds Metadata et Db Connections où vous avez stocké les schémas d'entrée, puis glissez la métadonnée de connexion correspondant dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez tMySQLInvalidRows dans la liste, et cliquez sur OK pour fermer la boîte de dialogue.

    Le composant tMySQLInvalidRows apparaît dans l'espace de modélisation graphique. La table MySQL utilisée dans ce scénario est appelée customers. Elle contient les colonnes customer_id, account_num, Iname, fname, country et Email concernant les clients.

  3. Glissez le tLogRow de la Palette dans l'espace de modélisation graphique.

  4. Connectez les deux composants à l'aide d'un lien Main Row.

Configurer le schéma

  1. Double-cliquez sur le tMySQLInvalid Rows afin d'afficher sa vue Basic settings et définir ses propriétés.

    Tous les champs relatifs à la connexion sont automatiquement renseignés. Si vous ne définissez pas vos fichiers d'entrée dans le Repository, remplissez les champs manuellement, après avoir sélectionné Built-in dans le champ Property Type.

  2. Dans la liste Validation type, sélectionnez Regex pattern validation.

    Cela valide les données dans les lignes sélectionnées par rapport à un modèle de regex. Pour un exemple de scénario concernant la validation de données par rapport à des règles de qualité de données, consultez Scénario 2 : Vérifier une table client par rapport une règle de qualité de données pour sélectionner les enregistrements clients.

  3. Dans le champ Table Name, saisissez le nom de la table de la base de données sur laquelle vous souhaitez exécuter le Job, customer1 dans cet exemple.

  4. Dans le champ Where clause, saisissez la clause WHERE qui restreint le nombre de lignes analysées.

    Dans ce scénario, analysez uniquement les adresses e-mail des clients habitant aux Etats-Unis.

  5. Dans la liste Analyzed column, sélectionnez la colonne que vous souhaitez analyser, Email dans cet exemple.

  6. Dans la liste Patterns list, sélectionnez le modèle de base de données de Studio Talend par rapport auquel vous voulez vérifier la colonne Email, Email Address dans cet exemple.

    Si vous cochez la case Custom pattern, vous pouvez personnaliser l'expression régulière par rapport à laquelle vos données seront vérifiées.

  7. Double-cliquez sur le tLogRow afin d'ouvrir sa vue Basic settings et définir ses propriétés comme nécessaire.

Exécuter le Job

  1. Sauvegardez votre Job en appuyant sur les touches Ctrl+S.

  2. Appuyez sur F6 pour l'exécuter.

Le composant tMySQLInvalidRows a analysé les adresses e-mail uniquement pour les clients des Etats-Unis, dans la table de la base de données MySQL en la comparant avec le modèle SQL sélectionné (Email Address), puis a extrait toutes les données filtrées, notamment les adresses e-mail invalides devant être corrigées.