Correspondance de données via de multiples passes à l'aide de composants Map/Reduce

Déprécié·e

Le framework MapReduce est déprécié à partir de la version 7.3 de Talend. Utilisez des Jobs Talend pour Apache Spark afin d'accomplir vos tâches d'intégration.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et à Talend Data Fabric.

Notez que les composants Map/Reduce de Talend sont disponibles uniquement pour les utilisateurs et utilisatrices·rices ayant souscrit à une option Big Data.

Ce scénario explique comment créer un Job Map/Reduce Talend afin de rapprocher des données, à l'aide de composants Map/Reduce. Cela permet de générer du code Map/Reduce et exécuter vos Jobs dans Hadoop.

Le Job de ce scénario groupe les enregistrements clients similaires en exécutant deux passes de rapprochement consécutives (via deux composants tMatchGroup) et écrit en sortie les correspondances par groupes. La première passe fournit ses correspondances à la seconde, pour qu'elle ajoute d'autres correspondances identifiées par les nouvelles règles et clés de bloc.

Ce Job est une duplication du Job Standard d'intégration de données décrit dans Rapprochement de données clients via de multiples passes (uniquement en anglais) mais les composants standards sont remplacés par des composants Map/Reduce.

Vous pouvez utiliser le Studio Talend pour convertir automatiquement le Job standard de la section précédente en un Job Map/Reduce. Ainsi, vous n'avez pas besoin de configurer à nouveau les paramètres des composants.

Avant de commencer à reproduire ce scénario, vérifiez que vous disposez des droits et autorisations nécessaires pour accéder à la distribution Hadoop utilisée.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici