CDC avec Spark dans Big Data

CDC avec Spark dans Big Data - 7.3

Change Data Capture

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Systèmes tiers > Composants Database (Intégration) > Change Data Capture

Gouvernance de données > Systèmes tiers > Composants Database (Intégration) > Change Data Capture

Qualité et préparation de données > Systèmes tiers > Composants Database (Intégration) > Change Data Capture

Last publication date

2024-02-22

Cet article montre un exemple d'approche pour faire des captures (CDC) à l'aide des composants Talend.

CDC a les mêmes avantages dans l'environnement de Big Data également. Mais la difficulté de l'usage de CDC dans Hadoop réside dans le fait qu'Hadoop n'est pas idéal pour les mises à jour des données. Insérer des données dans Hadoop est simple dans Hive mais les mises à jour et suppressions ne le sont pas. Étant donnée qu'Hadoop est un système distribué dans lequel les données sont stockées dans plusieurs nœuds à travers le réseau, les coûts en termes de performance pour la mise à jour d'un enregistrement sont particulièrement importants.

Un des moyens de régler ce problème est de créer des tables Base ou Hive, et des tables externes Hive, et de construire des vues en haut de ces tables. La table Base contiendra toutes les données jusqu'au chargement de nouveaux enregistrements. Les nouveaux enregistrements modifiés seront chargés dans les tables externes. Les tables internes sont généralement utilisées lorsque les données dans les tables temporaires et externes sont utilisées à l'extérieur de Hive.