メイン コンテンツをスキップする

HDFSでの2つのデータセットのマージ

このシナリオは、ビッグデータ関連のTalend製品にのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、tSqoopMergeを使用して、同じMySQLテーブルからHDFSに順次インポートする2つのデータセットをマージし、その間にレコードを変更する方法を示しています。

このシナリオで使用される最初のデータセット(変更前の古いデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
			

HDFSのパスは/user/ychen/target_oldになります。

2番目のデータセット(変更後の新しいデータセット)は、以下のように読み取られます:
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
			

HDFSのパスは/user/ychen/target_newになります。

データセットは両方ともtSqoopImportによってインポートされています。tSqoopImportの使用方法は、DFSへのMySQLテーブルのインポートをご覧ください。

このシナリオのジョブでは、これら2つのデータセットを新しいレコードとマージして、古いものを上書きします。

このシナリオに沿って作業をする前に、使用するHadoopディストリビューションへの適切なアクセス権限と許可があることをご確認ください。その後、次の手順に従ってください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。