Amazon EMR - Jobs Big Data Batch

author
Frédérique Martin Sainte-Agathe
EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
Talend Data Fabric
Talend Big Data
Talend Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Amazon EMR
Création et développement > Création de Jobs > Frameworks de Jobs > MapReduce
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
EnrichPlatform
Studio Talend

Amazon EMR - Jobs Big Data Batch

Cet article vous explique comment exécuter un Job Talend Big Data Batch en utilisant le framework MapReduce sur un cluster Amazon EMR.
  • Amazon EC2
  • Amazon EMR
  • Amazon RDS

L'ajout de données dans une base de données MySQL avec des données originaires d'une autre source, comme un fichier hébergé sur HDFS, ou un fichier stocké sur un système de fichiers local, est un prérequis commun à ces produits.

Création d'un Job Big Data Batch en utilisant un framework Map Reduce

Procédure

  1. Dans le Repository, cliquez-droit sur Job designs et cliquez sur Create Big Data Batch Job.
  2. Dans l'assistant, vous devrez renseigner les champs Name, Purpose et Description
  3. Afin de définir le Job en Job MapReduce, dans la liste déroulante Framework, sélectionnez MapReduce:

    C'est lors de cette étape que vous devez choisir le framework Spark si vous souhaitiez créer un Job Big Data Batch en utilisant le framework Spark.

    Vous serez ensuite capable de créer votre Job comme n'importe quel autre Job Talend.

Configuration d'un Job Big Data Batch en utilisant le framework Map Reduce

Procédure

  1. Pour configurer votre Job afin qu'il soit exécuté sur votre cluster Amazon EMR, ouvrez la vue Run.
  2. Dans l'onglet Hadoop Configuration, vous utiliserez la métadonnée de connexion de votre cluster. Dans la liste déroulante Property Type, sélectionnez Repository, puis parcourez le Repository pour trouver votre métadonnée de connexion Amazon EMR :
  3. Une fois créé et configuré, vous pouvez exécuter votre Job.

    Vous pouvez suivre l'exécution de votre Job dans l'espace de modélisation graphique ou dans la console :

    Le Studio Talend vous permet de convertir des Jobs d'un framework à un autre.

    Comme Spark vous permet un traitement "en mémoire" (in-memory), vous pourriez être intéressé par l'article Converting a MapReduce Job to a Spark Job.