Utiliser des mappings de données

Utiliser des mappings de données - Cloud

Guide d'utilisation du Talend Cloud Data Catalog

Version

Cloud

Language

Français

Product

Talend Cloud

Module

Talend Data Catalog

Content

Gouvernance de données

Last publication date

2023-11-13

AWS

Certains processus de flux de données ne peuvent être collectés à l'aide des ponts. Si ces processus ne sont pas modélisés dans Talend Cloud Data Catalog, cela laisse des vides dans les réponses du lignage et de l'analyse d'impact, et fournit une image incomplète de l'architecture physique de vos systèmes.

Les spécifications de mapping de données sont des définitions logiques de haut niveau de la manière dont les données circulent depuis un certain nombre de modèles source vers des éléments d'un modèle cible.

Ces mappings sont spécifiés à l'aide d'un éditeur de spécifications de mappings simple et basé Web via glisser-déposer. Ils sont définis via du texte descriptif. Vous pouvez également définir des fonctions à l'aide d'un éditeur d'opérations.

Un mapping de données peut contenir deux types de mappings :

Un mapping de requêtes est plus flexible. Vous déterminez une définition de mapping colonne par colonne pour toutes les colonnes dans la table cible. Elles peuvent comprendre des jointures, des filtres, des transformations, etc. Chaque mapping de requêtes est défini pour un classificateur cible.
Lors de la définition d'un mapping de requêtes, le classificateur cible peut provenir de n'importe quel modèle de data store défini dans la configuration. Les sources peuvent provenir de n'importe quel(s) modèle(s) de data store et, puisque vous pouvez avoir plusieurs classificateurs source, elles peuvent venir de plusieurs contenus source dans le même mapping.
Pour qu'un mapping de masse soit possible, il doit être conçu pour des tables source ou cibles qui contiennent des noms ou des positions de colonnes qui lui correspondent. Vous pouvez définir des filtres, ainsi, les mappings au niveau d'une colonne sont simples et le nom et la position des colonnes correspondent. Chaque mapping de masse est défini pour un schéma cible et un schéma source.

Remarque : Alors que de nombreux contenus peuvent avoir plusieurs versions dans le référentiel, les mappings sémantiques et les mappings de données, eux, n'ont pas de version. Ainsi, vous n'avez pas besoin de maintenir des versions séparées, selon la version de configuration.

Tout mapping de données avec mappings de masse et/ou mappings de requêtes peut être exporté vers et importé depuis le format des scripts de mapping de données sans perte. Ce format se base sur la syntaxe standard de base de données SQL Data Manipulation Language (SQL DML) et comprend :

les modèles de connexion de données (par exemple le schéma d'une base de données, des tables et des colonnes) de leurs data stores sources et cibles représentent fidèlement les technologies supportées (SGBDR, NoSQL, systèmes de fichiers),
les modèles d'intégration de données (DI/ETL/ELT/CDC) pour le lignage des flux de données entre ces data stores.

Les spécificités de cette syntaxe pour le format des scripts de mapping de données sont expliquées dans un fichier d'exemple dans <TDC_HOME>/TalendDataCatalog/conf/MIRModelBridgeTemplate/DataMappingScript/DataMappingScriptTutorial.sql.

Les scripts de mapping de données peuvent être modifiés ou générés entièrement de zéro pour modéliser (simuler) un outil DI/ETL/ELT/CDC ne faisant pas partie des outils supportés pour un import de modèle natif.

Les scripts de mapping de données peuvent être ensuite importés en tant que modèles d'intégration de données indépendants ou réimportés dans un mapping de données. Le lignage de flux de données en résultant sera identique dans les deux cas.

Le nouveau format de script de mapping de données fournit un nombre d'avantages par rapport à l'ancien format de métadonnées Excel (déprécié), notamment :

Le format de script de mapping de données supporte les allers-retours (export/import) depuis/vers un mapping de données, alors que ce n'est pas le cas de l'ancien format de métadonnées Excel avec lequel l'export concerne les rapports et l'import l'amorçage (bootstrapping).
Les fichiers du format de script de mapping de données sont généralement plus compacts que les fichiers très verbeux de métadonnées Excel basés sur les maps de classifieur/table et maps de fonctionnalités/colonnes.
Le format de script de mapping de données est plus simple à générer à partir d'outils SQL basés DI/ETL/ELT/CDC.
Le format de script de mapping de données supporte les mappings de masse et les mappings de requêtes, alors que le format de métadonnées Excel est limité dans sa gestion des mappings de masse.
Le format de script de mapping de données supporte plus de technologies de data stores sources et cibles (SGBDR, NoSQL, systèmes de fichiers) que le format de métadonnées Excel.

Ainsi, l'export/l'import d'un script de mapping de données basé sur des fichiers est la méthode recommandée, alors que les métadonnées héritées du format Excel sont à présent dépréciées.