HDFSでの2つのデータセットのマージ - 7.3

Sqoop

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBツール > Sqoop
データガバナンス > サードパーティーシステム > DBツール > Sqoop
データクオリティとプレパレーション > サードパーティーシステム > DBツール > Sqoop

このシナリオは、ビッグデータ関連Talend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、tSqoopMergeを使用して、同じMySQLテーブルからHDFSに順次インポートする2つのデータセットをマージし、その間にレコードを変更する方法を示しています。

このシナリオで使用される最初のデータセット(変更前の古いデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
			

HDFSのパスは/user/ychen/target_oldになります。

2番目のデータセット(変更後の新しいデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
			

HDFSのパスは/user/ychen/target_newになります。

データセットは両方ともtSqoopImportによってインポートされています。tSqoopImportの使用方法は、『HDFSへのMySQLテーブルのインポート』を参照してください。

このシナリオのジョブでは、これら2つのデータセットを新しいレコードとマージして、古いものを上書きします。

このシナリオに沿って作業をする前に、使用するHadoopディストリビューションへの適切なアクセス権限と許可があることをご確認ください。その後、次の手順に従ってください。