Scénario 2 : Vérifier une table client par rapport une règle de qualité de données pour sélectionner les enregistrements clients - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario présente un Job à trois composants permettant de vérifier une table client MySQL par rapport à une règle de qualité de données, afin d'effectuer une requête sur des enregistrements clients spécifiques.

Les composants sont les suivants :

  • un tMysqlConnection : ce composant crée la connexion à la base de données MySQL afin que les autres composants puissent la réutiliser.

  • un tMySQLInvalidRows : ce composant réutilise la connexion créée par le tMysqlConnection et interroge les enregistrements clients qui vous intéressent, par rapport à la règle de qualité de données.

  • un tLogRow : ce composant présente les résultats de l'exécution du Job.

Pour reproduire ce scénario, suivez les étapes des sections suivantes.

Déposer et relier les composants

Procédez comme suit :

  1. De la Palette, déposez un tMysqlConnection, un tMySQLInvalidRows et un tLogRow dans l'espace de modélisation graphique.

    Un composant dans l'espace de modélisation graphique peut être nommé comme vous le souhaitez. Pour plus d'informations concernant le nommage des composants, consultez le Guide utilisateur du Studio Talend

  2. Cliquez-droit sur le tMysqlConnection et sélectionnez Trigger > OnSubjobOk afin de relier ce composant au tMySQLInvalidRows.

  3. Répétez l'opération mais sélectionnez Row > Main pour connecter le composant tMySQLInvalidRows au tLogRow.

Configurer la connexion à la base de données

Pour configurer la connexion à la base de données MySQL, procédez comme suit :

  1. Double-cliquez sur le tMysqlConnection afin d'ouvrir sa vue Component.

  2. Dans le champ DB version, sélectionnez la version de votre base de données MySQL. Sélectionnez Mysql 5 dans cet exemple.

  3. Dans le champ Host, saisissez l'adresse IP du serveur de la base de données à laquelle se connecter. Dans ce scénario, saisissez localhost.

  4. Dans le champ Port, saisissez le numéro du port de la base de données à laquelle se connecter. Saisissez 3306 dans cet exemple.

  5. Dans le champ Database, saisissez le nom de la base de données dans laquelle vous souhaitez vérifier la table client. Dans ce scénario, saisissez crm.

  6. Dans les champs Username et Password, saisissez les informations d'authentification à la base de données. Dans cet exemple, saisissez root dans les deux champs.

Configurer la requête sur les enregistrements clients

Pour ce faire, procédez comme suit :

  1. Double-cliquez sur le tMySQLInvalidRows pour ouvrir sa vue Component.

  2. Dans le champ Validation type, sélectionnez DQ rule validation afin d'utiliser la règle de qualité de données.

  3. Cochez la case Use an existing connection afin de réutiliser la connexion créée par le tMysqlConnection.

  4. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir l'éditeur de schéma.

  5. Cliquez trois fois sur le bouton [+] pour ajouter trois lignes et renommez-les respectivement Name, DOB et Email,.

  6. Dans la ligne DOB, sélectionnez VARCHAR dans la colonne DB type. Saisissez 19 dans la colonne Length et 0 dans la colonne Precision.

  7. Cliquez sur OK pour valider ces modifications et accepter la propagation proposée par la fenêtre pop-up.

  8. Dans le champ Table name, saisissez le chemin d'accès à la table de la base de données à vérifier. Saisissez cust dans cet exemple.

  9. Dans le champ Where clause, saisissez la clause WHERE à utiliser, en plus de la règle de qualité de données, afin d'interroger les données clients qui vous intéressent. Dans ce scénario, saisissez entre guillemets `cust`.`Email` like 's%' afin de récupérer les enregistrements d'e-mail commençant par la lettre s ou S.

  10. Dans le champ DQ rule list, sélectionnez la règle de qualité de données à utiliser. Dans ce scénario, sélectionnez cust_age. Cette règle est une règle de démo qui se présente comme suit :

    18<=((TO_DAYS(NOW())-TO_DAYS(DOB))/365)

    Vous pouvez regarder quelles sont les règles de qualité de données disponibles dans Libraries > Rules > SQL de la vue DQ Repository. La règle cust_age peut être importée du projet TDQEEDEMOJAVA.

    Pour plus d'informations concernant la vue DQ Repository et ses éléments, ainsi que comment importer le projet démo de qualité de données, consultez le Guide utilisateur du Studio Talend.

  11. Cliquez sur le bouton Guess Query pour générer la requête correspondante utilisant la clause NOT.

  12. Dans le champ Query, changez 18 en 20 afin que la clause soit la suivante :

    "SELECT `Name`, `DOB`, `Email` FROM `crm`.`cust` 
      WHERE (NOT ( 20>((TO_DAYS(NOW())-TO_DAYS(DOB))/365) )
      AND `cust`.`Email` like 's%')"

    Cette clause vous permet de sélectionner les clients dont l'âge est supérieur à 20.

Exécuter le Job

Le tLogRow est utilisé pour présenter les résultats d'exécution du Job. Vous pouvez configurer le mode de présentation dans sa vue Component.

Pour ce faire, double-cliquez sur le tLogRow afin d'ouvrir sa vue Component. Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).

  • Pour exécuter le Job, appuyez sur F6.

La vue Run s'ouvre automatiquement et vous pouvez vérifier les résultats d'exécution.

Vous pouvez remarquer que les enregistrements clients commençant par la lettre S sont récupérés et que l'âge de ces personnes est supérieur à 20.