Fusionner deux ensembles de données dans HDFS - 7.1

Sqoop

Version
7.1
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Outils de bases de données > Composants Sqoop
Gouvernance de données > Systèmes tiers > Outils de bases de données > Composants Sqoop
Qualité et préparation de données > Systèmes tiers > Outils de bases de données > Composants Sqoop

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Ce scénario montre comment utiliser le tSqoopMerge pour fusionner deux ensembles de données qui sont importés de manière séquentielle dans HDFS, à partir de la même table MySQL, mais dont un enregistrement a été modifié.

Le premier ensemble de données utilisé (celui avant les modifications) se présente comme suit :
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,3000,2010-05-02 15:34:05
			

Le chemin vers cet ensemble de données dans HDFS est /user/ychen/target_old.

Le second ensemble de données utilisé (celui après les modifications) se présente comme suit :
id,wage,mod_date
0,2000,2008-06-26 04:25:59
1,2300,2011-06-12 05:29:45
2,2500,2007-01-15 11:59:13
3,4000,2013-10-14 18:00:00
			

Le chemin vers cet ensemble de données dans HDFS est /user/ychen/target_new.

Ces ensembles de données sont tous les deux importés à l'aide du composant tSqoopImport. Pour un scénario montrant comment utiliser le tSqoopImport, consultez Importer une table MySQL dans HDFS.

Le Job décrit dans ce scénario fusionne deux ensembles de données. Les nouveaux enregistrements écrasent les anciens.

Avant de commencer à reproduire ce scénario, assurez-vous d'avoir les droits d'accès appropriés à la distribution Hadoop à utiliser. Procédez comme suit :