Utiliser Spark avec Talend Data Mapper
Apache Spark (Spark) est utile lorsque vous souhaitez traiter des fichiers d'entrée volumineux avec Talend Data Mapper. Vous pouvez profiter de la rapidité et des avantages de diffusion de Spark pour diffuser le fichier et procéder au mapping sans avoir à charger en mémoire le fichier complet avant d'effectuer une transformation.
Si vous souhaitez tester les capacités de Spark avec Talend Data Mapper en important des fichiers d'entrée volumineux, parcourez ce scénario pour savoir comment faire.
Pour plus d'informations concernant Apache Spark, consultez la documentation officielle à l'adresse http://spark.apache.org/. Pour plus d'informations concernant Talend Data Mapper, consultez le Guide d'utilisation de Talend Data Mapper.
Prérequis
Le Studio Talend contient un environnement Spark local pouvant exécuter des Jobs. Pour effectuer avec succès le scénario suivant, vous trouverez ci-dessous un exemple d'environnement que vous pouvez configurer :
- Trois instances de serveurs CentOS sur Google Cloud Platform avec Cloudera installé en tant que cluster avec le système de fichiers distribués Hadoop (HDFS) et les services Spark activés
- Client Windows 10
Se connecter à un Cluster Hadoop
Procédure
Créer la structure Talend Data Mapper
Créez une structure pour votre map.
Avant de commencer
firstName,lastName,age
John,Doe,20
Jane,Doe,35
Kid,Doe,02
Procédure
Créer un Job Big Data Batch avec une connexion HDFS
Une fois le Cluster Hadoop et la Structure créés, définissez le Job Big Data Batch comprenant les composants tHDFSConfiguration, tHMapInput et tLogRow.
Procédure
Configurer la map et exécuter le Job
Mappez les éléments de l'entrée à la structure de sortie et exécutez le Job.
Procédure
Dépanner votre Job
Si vous rencontrez des erreurs lorsque vous effectuez le scénario d'exemple, jetez un œil à ces solutions vous aidant à exécuter le Job avec succès.
-
Configuration Cloudera incorrecte : Il se peut que Cloudera ait configuré votre cluster avec son nom de domaine entièrement qualifié (FQDN) interne. Dans ce cas, vous devrez peut-être ajouter d'autres informations à votre fichier Hosts pour éviter les problèmes de connexion.
Pour ce faire, rendez-vous dans C:\\Windows\System32\drivers\etc et ouvrez le fichier Hosts en tant qu'Administrateur. Ajoutez ensuite l'adresse IP externe de votre cluster et votre FQDN interne. Sauvegardez le fichier.
Cela devrait inciter Cloudera à utiliser le FQDN interne.
-
Erreur fréquente dans un Job Big Data Batch : Si vous vous connectez à un Cluster Hadoop situé sur un autre serveur que celui de votre Studio Talend, ignorez l'erreur suivante :L'erreur localise simplement le fichier winutils pour exécuter localement les workers Spark. Pour ne plus rencontrer cette erreur, téléchargez et extrayez le fichier winutils. Définissez votre répertoire personnel Hadoop d'après l'emplacement d'extraction de ce fichier.