tMultiPatternCheck - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tMultiPatternCheck

Famille du composant

Data Quality

 

Fonction

Le tMultiPatternCheck vérifie toutes les données existantes dans différentes colonnes par rapport à une expression régulière Java donnée.

Objectif

Le tMultiPatternCheck peut donner deux flux de sortie : Matching Data et Non-Matching Data. Le premier collecte toutes les données qui correspondent à un modèle donné, et le second collecte toutes les données ne correspondant pas au modèle donné. Vous pouvez implémenter toute connexion requise.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 

Logical operator used to combine check conditions

Si vous souhaitez combiner les conditions que définies sur les colonnes, sélectionnez dans la liste le mode de combinaison que vous souhaitez utiliser.

 

Columns to check

Définissez une expression régulière pour chaque colonne analysée.

- Column : liste des colonnes analysées.

- Check pattern : Sélectionnez dans la liste le modèle par rapport auquel vous souhaitez vérifier les données des colonnes.

Ces modèles sont récupérés de la vue DQ Repository de votre Studio Talend. Cette liste comprend les modèles système et les modèles personnalisés.

Si vous souhaitez personnaliser un modèle de qualité de données par rapport auquel vérifier des colonnes, sélectionnez Custom dans la liste des modèles.

- Custom Pattern : saisissez votre expression régulière personnalisée si vous avez sélectionné Custom dans la colonne Check Pattern.

- Is Case sensitive : cochez la case correspondant au nom de la colonne que vous souhaitez prendre en compte lors de la vérification du modèle, minuscules et majuscules.

- Check : cochez la case de la colonne (des colonnes) que vous souhaitez vérifier par rapport aux modèles définis.

- Message : laissez cette colonne vide pour avoir des messages automatiques concernant les modèles invalidant une ligne de données et la rejetant.

Vous pouvez également saisir votre message personnalisé pour enrichir les résultats du Job avec les informations concernant les modèles causant le rejet de la ligne.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

NB_LINE_OK : nombre de lignes correspondant à un modèle donné. Cette variable est une variable After et retourne un nombre entier.

NB_LINE_REJECT : nombre de lignes ne correspondant pas à un modèle donné. Cette variable est une variable After et retourne un nombre entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire. Cela requiert un flux entrant et une sortie.

Limitation

Si vous utilisez un modèle dans un Job, vous ne pouvez modifier le modèle dans l'éditeur de modèles. Les modifications effectuées dans cet éditeur ne sont pas propagées au Job.

Scénario : Vérifier les données dans des colonnes multiples par rapport aux modèles

Ce scénario décrit un Job comprenant quatre composants, qui vérifie les noms et prénoms des clients, leur code postal et leur adresse e-mail par rapport aux modèles donnés. Il liste les données correspondant aux modèles sélectionnés, et celles qui ne correspondent pas.

Les résultats de la vérification sont écrits dans deux fichiers de sortie : le premier pour les valeurs correspondant aux modèles sélectionnés, et le second pour les valeurs qui ne correspondent pas aux modèles sélectionnés. Pour les données rejetées, un message s'affiche, précisant le modèle qui n'a pas été validé.

Construire le Job

Dans ce scénario, vous avez déjà stocké les principaux schémas d'entrée dans le Repository. Pour plus d'informations à propos du stockage de métadonnées de schéma dans le Repository, consultez le Guide utilisateur du Studio Talend.

La table principale d'entrée contient trois colonnes : lname, fname et email. Vous allez vérifier les entrées de ces colonnes par rapport à des modèles.

  1. Dans la vue Repository, cliquez sur Metadata > DB Connections où vous avez stocké les principaux schémas d'entrée et glissez le fichier correspondant dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez le composant tMysqlInput et cliquez sur OK pour le déposer dans l'espace de modélisation graphique.

    La table d'entrée utilisée dans ce scénario est appelée customer. Elle contient plusieurs colonnes, dont les trois colonnes par rapport auxquelles vous voulez vérifier le modèle.

  3. Glissez un tMultiPatternCheck de la Palette dans l'espace de modélisation graphique, ainsi que deux tLogRow.

  4. Connectez le composant d'entrée principal au tMultiPatternCheck à l'aide d'un lien Row > Main.

  5. Connectez le tMultiPatternCheck aux deux composants tLogRow à l'aide des liens Matches et Non Matches.

Configurer les composants

  1. Double-cliquez sur le composant tMultiPatternCheck afin d'afficher sa vue Component et définir ses propriétés.

  2. Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir les données que vous souhaitez passer aux composants de sortie, puis cliquez sur OK pour fermer la boîte de dialogue.

    Dans cet exemple, l'objectif est de passer au composant tMultiPatternCheck toutes les colonnes d'entrée.

  3. Cliquez sur la colonne Check Pattern et sélectionnez dans la liste les modèles par rapport auxquels vérifier les données dans les colonnes.

    Dans cet exemple, vérifiez que les noms et prénoms des clients commencent par une majuscule et que les adresses e-mail des clients sont valides.

  4. Sélectionnez le modèle Starts with uppercase, pour les prénoms et noms de famille et Email Address pour les adresses e-mail des clients, dans la liste des modèles.

    Les modèles dans cette liste sont récupérés de la vue DQ Repository de votre Studio Talend. Cette liste comprend les modèles systèmes et personnalisés.

  5. Dans la colonne Is Case Sensitive, cochez les cases en face des colonnes sur lesquelles vous voulez prendre en compte la casse durant la vérification des modèles.

  6. Dans la colonne Check, cochez les cases en face des colonnes que vous voulez vérifier par rapport aux modèles définis, toutes les colonnes dans cet exemple.

  7. Laissez la colonne Message vide si vous souhaitez avoir un message automatique concernant les modèles non validés. Vous pouvez également paramétrer votre propre message.

  8. Double-cliquez sur le premier composant tLogRow afin d'afficher sa vue Component et définir ses propriétés.

  9. Dans la zone Mode, sélectionnez l'option Table pour afficher les résultats sous forme de tableau.

    Répétez l'opération pour le second composant tLogRow.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 afin de l'exécuter.

    Deux tables de sorties s'affichent dans la console. La première table liste les données d'entrée dans les trois colonnes définies, qui correspondent aux modèles sélectionnés. La seconde table liste les entrées qui ne correspondent pas aux modèles sélectionnés.

    La colonne REGEX_INVALIDITY_MESSAGE de la seconde table indique le nom du modèle n'ayant pas été validé et à cause duquel les lignes ont été rejetées.

    La capture d'écran ci-dessous illustre les extractions de deux tables de sortie.