Bonnes pratiques d'utilisation de Talend Data Catalog dans vos processus ETL/ELT - 8.0

Version
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Catalog
Content
Installation et mise à niveau
Last publication date
2024-01-25

Bonnes pratiques d'utilisation de Talend Data Catalog dans vos processus ETL/ELT

Talend Data Catalog permet la découverte de données intelligente fournissant une source unique de données fiables dans un catalogue de données centralisé, ainsi que la possibilité d'effectuer une analyse d'impact et/ou un lignage de données en collectant les Jobs Talend Data Integration. Par exemple, vous pouvez trouver l'utilisation d'un attribut ou d'une colonne spécifique depuis la source à la destination du flux de données, au sein du périmètre d'un Job Talend Data Integration.

Ce document présente les méthodes de conception des Jobs Talend Data Integration permettant de maximiser les avantages de l'utilisation de Talend Data Catalog, notamment avec un système de fichiers Windows et des bases de données relationnelles, soit en sources de données, soit en stockages cibles des données.

Utiliser le type de propriété Repository (Référentiel) à la place du type Built-in

Pour la plupart des composants dans le Studio Talend, un attribut Property Type (Type de propriété) vous permet de définir une source de données d'entrée avec un chemin physique. Cette source peut être définie comme faisant partie d'un composant (type Built-in), ou comme faisant partie du référentiel de métadonnées (type Repository), et peut être réutilisée dans d'autres Jobs. Pour Talend Data Catalog, il est recommandé de configurer le paramètre Property Type (Type de propriété) à Repository (Référentiel), surtout si votre composant de système de fichiers ou de base de données est une source ou une cible de données.

Prenez l'exemple du composant tMap dans le Job d'exemple ci-dessous, qui stocke des données à partir d'un fichier CSV dans une base de données MySQL.

Le composant tMap est configuré comme présenté ci-dessous.

Assurez-vous que les composants tFileInputDelimited et tDBOutput ont le type de propriété Property Type défini comme Repository (Référentiel). Cette configuration est nécessaire pour visualiser le lignage ou l'impact de données correctement.

L'image suivante présente l'analyse d'impact sur les données de la colonne lastname, stockées comme customername, à cause de la configuration du tMap dans le Job Talend Data Integration, mettant en valeur la fonction de concaténation du tMap.

Utiliser des spécifications de mapping de données dans les composants de code personnalisé comme le tJavaRow

Les composants Talend Data Integration comme le tJava ou le tJavaRow vous permettent d'écrire du code personnalisé pour implémenter un choix logique. Ce code personnalisé peut briser le lignage ou produire des dépendances de tout envers tout (produit cartésien) dans Talend Data Catalog. Pour éviter ces conséquences, il est recommandé de créer des spécifications de mapping de données dans l'onglet Documentation du composant.

Si les mappings de données ne sont pas inclus, les résultats produits peuvent être différents en fonction du code personnalisé, soit le lignage est brisé, soit un produit cartésien des mappings peut se former. L'image ci-dessous présente les scénarios possibles dans le cas de spécifications de mappings manquantes.

Voici un Job d'exemple utilisant le composant tJavaRow pour effectuer une vérification conditionnelle simple de la quantité commandée par un client.

Sans mapping défini, le résultat de ce Job est un produit cartésien, qui brise le lignage.

Vous pouvez ajouter des spécifications de mappings dans l'onglet Documentation du composant.

Cela résout le problème du lignage :

Utiliser des variables de contexte pour les requêtes SQL générées dynamiquement

C'est une pratique commune d'effectuer des concaténations de chaînes de caractères lors de la formation de requêtes SQL de manière programmatique. Les Jobs Talend Data Integration vous permettent d'effectuer ces concaténations de chaînes de caractères dans des composants relatifs au SQL, comme le tDBRow et les composants de code personnalisé, comme le tJavaRow. En fonction du composant dans lequel sont effectuées les concaténations pour former une requête SQL, elles peuvent conduire à certaines difficultés dans le suivi du lignage de données. La solution est d'utiliser des variables de contexte pour la partie dynamique de la requête SQL, au sein de composants SQL, au lieu de code personnalisé.

Prenez l'exemple du Job simple suivant, contenant uniquement un composant tDBInput utilisant une variable de contexte définie pour le nom de la table.