Accéder au contenu principal Passer au contenu complémentaire

Utiliser Spark avec Talend Data Mapper

Apache Spark (Spark) est utile lorsque vous souhaitez traiter des fichiers d'entrée volumineux avec Talend Data Mapper. Vous pouvez profiter de la rapidité et des avantages de diffusion de Spark pour diffuser le fichier et procéder au mapping sans avoir à charger en mémoire le fichier complet avant d'effectuer une transformation.

Si vous souhaitez tester les capacités de Spark avec Talend Data Mapper en important des fichiers d'entrée volumineux, parcourez ce scénario pour savoir comment faire.

Pour plus d'informations concernant Apache Spark, consultez la documentation officielle à l'adresse http://spark.apache.org/ (uniquement en anglais). Pour plus d'informations concernant Talend Data Mapper, consultez le Guide d'utilisation de Talend Data Mapper.

Prérequis

Le Studio Talend contient un environnement Spark local pouvant exécuter des Jobs. Pour effectuer avec succès le scénario suivant, vous trouverez ci-dessous un exemple d'environnement que vous pouvez configurer :

  • Trois instances de serveurs CentOS sur Google Cloud Platform avec Cloudera installé en tant que cluster avec le système de fichiers distribués Hadoop (HDFS) et les services Spark activés
  • Client Windows 10

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !