Dédoublonner des entrées en utilisant des composants Map/Reduce - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez .

Ce scénario montre comment créer un Job Talend Map/Reduce afin de dédoublonner des entrées. En d'autres termes, ce scénario utilise des composants Map/Reduce afin de générer du code Map/Reduce et exécuter le Job dans Hadoop.

Notez que les composants Talend Map/Reduce ne sont disponibles que si vous avez souscrit à l'une des solutions Big Data de Talend et que ce scénario ne peut être reproduit qu'avec des composants Map/Reduce.

Les données d'exemple utilisées dans ce scénario se présentent comme suit :
1;Harry;Ford;68;Albany
2;Franklin;Wilson;79;Juneau
3;Ulysses;Roosevelt;25;Harrisburg
4;Harry;Ford;48;Olympia
5;Martin;Reagan;75;Columbia
6;Woodrow;Roosevelt;63;Harrisburg
7;Grover;McKinley;98;Atlanta
8;John;Taft;93;Montpelier
9;Herbert;Johnson;85;Lincoln
10;Grover;McKinley;33;Lansing

Etant donné que le Studio Talend vous permet de convertir un Job Map/Reduce en Job Standard (non Map/Reduce) et vice-versa, vous pouvez convertir le scénario présenté précédemment afin de créer ce Job Map/Reduce. Ainsi, la plupart des composants utilisés peuvent garder leurs paramètres d'origine afin de réduire votre charge de travail pour la création de ce Job.

Avant de commencer ce scénario, assurez-vous de disposer des droits d'accès Hadoop nécessaires pour accéder à la distribution Hadoop utilisée. Procédez ensuite comme suit :