CDC avec Spark dans Big Data - 7.3

Change Data Capture

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Database (Intégration) > Change Data Capture
Gouvernance de données > Systèmes tiers > Composants Database (Intégration) > Change Data Capture
Qualité et préparation de données > Systèmes tiers > Composants Database (Intégration) > Change Data Capture
Last publication date
2023-06-14

Cet article montre un exemple d'approche pour faire des captures (CDC) à l'aide des composants Talend.

CDC a les mêmes avantages dans l'environnement de Big Data également. Mais la difficulté de l'usage de CDC dans Hadoop réside dans le fait qu'Hadoop n'est pas idéal pour les mises à jour des données. Insérer des données dans Hadoop est simple dans Hive mais les mises à jour et suppressions ne le sont pas. Étant donnée qu'Hadoop est un système distribué dans lequel les données sont stockées dans plusieurs nœuds à travers le réseau, les coûts en termes de performance pour la mise à jour d'un enregistrement sont particulièrement importants.

Un des moyens de régler ce problème est de créer des tables Base ou Hive, et des tables externes Hive, et de construire des vues en haut de ces tables. La table Base contiendra toutes les données jusqu'au chargement de nouveaux enregistrements. Les nouveaux enregistrements modifiés seront chargés dans les tables externes. Les tables internes sont généralement utilisées lorsque les données dans les tables temporaires et externes sont utilisées à l'extérieur de Hive.