ビッグデータでSparkを使用したCDC - Cloud - 8.0

Change Data Capture

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > データキャプチャーの変更
データガバナンス > サードパーティーシステム > DBコンポーネント > データキャプチャーの変更
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > データキャプチャーの変更

この記事では、Talendコンポーネントを使用してCDCを実行する方法のサンプルアプローチを示します。

CDCには、ビッグデータの世界でも同じ利点があります。ただし、HadoopでCDCを使用する際の課題は、Hadoopがデータの更新に理想的ではないことです。Hadoopへのデータの挿入はHiveでは簡単ですが、更新と削除は簡単ではありません。Hadoopはデータが保存される分散システムであり、ネットワーク全体で複数のノードがあるため、レコードを更新することによるパフォーマンスのオーバーヘッドは膨大です。

この問題を解決する方法の1つは、Hiveベーステーブルまたは内部テーブルとHive外部テーブルを作成し、それらの上にビューを構築することです。ベーステーブルは、新しいレコードがロードされるまで、すべてのデータを保持します。新しく変更されたレコードは、外部テーブルにロードされます。内部テーブルは通常、一時テーブルのデータが使用されるときに使用され、外部テーブルはテーブルのデータがHiveの外部で使用されるときに使用されます。