HDFSでの2つのデータセットのマージ - Cloud - 8.0

Sqoop

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Data management components > Data movement > Sqoop
ジョブデザインと開発 > サードパーティーシステム > DBツール > Sqoop
データガバナンス > サードパーティーシステム > Data management components > Data movement > Sqoop
データガバナンス > サードパーティーシステム > DBツール > Sqoop
データクオリティとプレパレーション > サードパーティーシステム > Data management components > Data movement > Sqoop
データクオリティとプレパレーション > サードパーティーシステム > DBツール > Sqoop
Last publication date
2024-02-28

このシナリオは、ビッグデータ関連のTalend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、tSqoopMergeを使用して、同じMySQLテーブルからHDFSに順次インポートする2つのデータセットをマージし、その間にレコードを変更する方法を示しています。

このシナリオで使用される最初のデータセット(変更前の古いデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
			

HDFSのパスは/user/ychen/target_oldになります。

2番目のデータセット(変更後の新しいデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
			

HDFSのパスは/user/ychen/target_newになります。

データセットは両方ともtSqoopImportによってインポートされています。tSqoopImportの使用方法は、『HDFSへのMySQLテーブルのインポート』をご覧ください。

このシナリオのジョブでは、これら2つのデータセットを新しいレコードとマージして、古いものを上書きします。

このシナリオに沿って作業をする前に、使用するHadoopディストリビューションへの適切なアクセス権限と許可があることをご確認ください。その後、次の手順に従ってください。