ビッグデータでSparkを使用したCDC

この記事では、Talendコンポーネントを使用してCDCを実行する方法のサンプルアプローチを示します。

CDCには、ビッグデータの世界でも同じ利点があります。ただし、HadoopでCDCを使用する際の課題は、Hadoopがデータのアップデートに理想的ではないことです。Hadoopへのデータの挿入はHiveでは簡単ですが、アップデートと削除は簡単ではありません。Hadoopはデータが保存される分散システムであり、ネットワーク全体で複数のノードがあるため、レコードをアップデートすることによるパフォーマンスのオーバーヘッドは膨大です。

この問題を解決する方法の1つは、Hiveベーステーブルまたは内部テーブルとHive外部テーブルを作成し、それらの上にビューを構築することです。ベーステーブルは、新しいレコードがロードされるまで、すべてのデータを保持します。新しく変更されたレコードは、外部テーブルにロードされます。内部テーブルは通常、一時テーブルのデータが使用されるときに使用され、外部テーブルはテーブルのデータがHiveの外部で使用されるときに使用されます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください

ビッグデータでSparkを使用したCDC

このセクション内

このページは役に立ちましたか?