Faire correspondre des données via de multiples passes à l'aide de composants Map/Reduce - 7.0

Data matching

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant souscription.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Notez que les composants Map/Reduce de Talend sont disponibles pour les utilisateurs ayant souscrit à une option Big Data.

Ce scénario explique comment créer un Job Map/Reduce Talend afin de rapprocher des données, à l'aide de composants Map/Reduce. Cela permet de générer du code Map/Reduce et exécuter vos Jobs dans Hadoop.

Le Job de ce scénario groupe les enregistrements clients similaires en exécutant deux passes de rapprochement consécutives (via deux composants tMatchGroup) et écrit en sortie les correspondances par groupes. La première passe fournit ses correspondances à la seconde, pour qu'elle ajoute d'autres correspondances identifiées par les nouvelles règles et clés de bloc.

Ce Job est une duplication du Job Standard d'intégration de données décrit dans Rapprocher des données clients via de multiples passes mais les composants standards sont remplacés par des composants Map/Reduce.

Vous pouvez utiliser le Studio Talend pour convertir automatiquement le Job standard de la section précédente en un Job Map/Reduce. Ainsi, vous n'avez pas besoin de configurer à nouveau les paramètres des composants.

Avant de commencer à reproduire ce scénario, assurez-vous d'avoir les droits appropriés et les permissions pour accéder à la distribution Hadoop à utiliser.