Scénario : Vérifier les données dans des colonnes multiples par rapport aux modèles - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job comprenant quatre composants, qui vérifie les noms et prénoms des clients, leur code postal et leur adresse e-mail par rapport aux modèles donnés. Il liste les données correspondant aux modèles sélectionnés, et celles qui ne correspondent pas.

Les résultats de la vérification sont écrits dans deux fichiers de sortie : le premier pour les valeurs correspondant aux modèles sélectionnés, et le second pour les valeurs qui ne correspondent pas aux modèles sélectionnés. Pour les données rejetées, un message s'affiche, précisant le modèle qui n'a pas été validé.

Construire le Job

Dans ce scénario, vous avez déjà stocké les principaux schémas d'entrée dans le Repository. Pour plus d'informations à propos du stockage de métadonnées de schéma dans le Repository, consultez le Guide utilisateur du Studio Talend.

La table principale d'entrée contient trois colonnes : lname, fname et email. Vous allez vérifier les entrées de ces colonnes par rapport à des modèles.

  1. Dans la vue Repository, cliquez sur Metadata > DB Connections où vous avez stocké les principaux schémas d'entrée et glissez le fichier correspondant dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez le composant tMysqlInput et cliquez sur OK pour le déposer dans l'espace de modélisation graphique.

    La table d'entrée utilisée dans ce scénario est appelée customer. Elle contient plusieurs colonnes, dont les trois colonnes par rapport auxquelles vous voulez vérifier le modèle.

  3. Glissez un tMultiPatternCheck de la Palette dans l'espace de modélisation graphique, ainsi que deux tLogRow.

  4. Connectez le composant d'entrée principal au tMultiPatternCheck à l'aide d'un lien Row > Main.

  5. Connectez le tMultiPatternCheck aux deux composants tLogRow à l'aide des liens Matches et Non Matches.

Configurer les composants

  1. Double-cliquez sur le composant tMultiPatternCheck afin d'afficher sa vue Component et définir ses propriétés.

  2. Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir les données que vous souhaitez passer aux composants de sortie, puis cliquez sur OK pour fermer la boîte de dialogue.

    Dans cet exemple, l'objectif est de passer au composant tMultiPatternCheck toutes les colonnes d'entrée.

  3. Cliquez sur la colonne Check Pattern et sélectionnez dans la liste les modèles par rapport auxquels vérifier les données dans les colonnes.

    Dans cet exemple, vérifiez que les noms et prénoms des clients commencent par une majuscule et que les adresses e-mail des clients sont valides.

  4. Sélectionnez le modèle Starts with uppercase, pour les prénoms et noms de famille et Email Address pour les adresses e-mail des clients, dans la liste des modèles.

    Les modèles dans cette liste sont récupérés de la vue DQ Repository de votre Studio Talend. Cette liste comprend les modèles systèmes et personnalisés.

  5. Dans la colonne Is Case Sensitive, cochez les cases en face des colonnes sur lesquelles vous voulez prendre en compte la casse durant la vérification des modèles.

  6. Dans la colonne Check, cochez les cases en face des colonnes que vous voulez vérifier par rapport aux modèles définis, toutes les colonnes dans cet exemple.

  7. Laissez la colonne Message vide si vous souhaitez avoir un message automatique concernant les modèles non validés. Vous pouvez également paramétrer votre propre message.

  8. Double-cliquez sur le premier composant tLogRow afin d'afficher sa vue Component et définir ses propriétés.

  9. Dans la zone Mode, sélectionnez l'option Table pour afficher les résultats sous forme de tableau.

    Répétez l'opération pour le second composant tLogRow.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 afin de l'exécuter.

    Deux tables de sorties s'affichent dans la console. La première table liste les données d'entrée dans les trois colonnes définies, qui correspondent aux modèles sélectionnés. La seconde table liste les entrées qui ne correspondent pas aux modèles sélectionnés.

    La colonne REGEX_INVALIDITY_MESSAGE de la seconde table indique le nom du modèle n'ayant pas été validé et à cause duquel les lignes ont été rejetées.

    La capture d'écran ci-dessous illustre les extractions de deux tables de sortie.