Dédoublonnage d'entrées en utilisant des composants Map/Reduce - 7.2

Traitement (Processing) (Intégration)

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Processing (Intégration)
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration)
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration)

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Ce scénario montre comment créer un Job Map/Reduce Talend afin de dédoublonner des entrées. En d'autres termes, ce scénario utilise des composants Map/Reduce afin de générer du code Map/Reduce et exécuter le Job dans Hadoop.

Notez que les composants Map/Reduce Talend ne sont disponibles que si vous avez souscrit à l'une des solutions Big Data et que ce scénario ne peut être reproduit qu'avec des composants Map/Reduce.

Les données d'exemple utilisées dans ce scénario se présentent comme suit :
1;Harry;Ford;68;Albany
2;Franklin;Wilson;79;Juneau
3;Ulysses;Roosevelt;25;Harrisburg
4;Harry;Ford;48;Olympia
5;Martin;Reagan;75;Columbia
6;Woodrow;Roosevelt;63;Harrisburg
7;Grover;McKinley;98;Atlanta
8;John;Taft;93;Montpelier
9;Herbert;Johnson;85;Lincoln
10;Grover;McKinley;33;Lansing

Étant donné que le Studio Talend vous permet de convertir un Job Map/Reduce en Job Standard (Non Map/Reduce) et vice-versa, vous pouvez convertir le scénario présenté plus tôt afin de créer ce Job Map/Reduce. Ainsi, de nombreux composants utilisés conservent leurs paramètres originaux afin de réduire votre charge de travail lors de la conception du Job.

Avant de commencer à reproduire ce scénario, assurez-vous d'avoir les droits d'accès appropriés à la distribution Hadoop à utiliser. Procédez comme suit :