Créer un Job Big Data Batch avec une connexion HDFS

Une fois le Cluster Hadoop et la Structure créés, définissez le Job Big Data Batch comprenant les composants tHDFSConfiguration, tHMapInput et tLogRow.

Procédure

Ouvrez la perspective Integration et naviguez jusqu'à Repository > Job Designs.
Cliquez-droit sur Big Data Batch et sélectionnez Create Big Data Batch Job.
Renseignez les informations nécessaires pour créer le Job.
Faites glisser les métadonnées du Cluster Hadoop que vous avez créé dans le Job Design et sélectionnez le composant tHDFSConfiguration.
Ajoutez les composants tHMapInput et tLogRow, puis connectez-les à l'aide d'une connexion Row > Main.
1. Lorsque le nom de sortie vous est demandé, saisissez Output.
Double-cliquez sur le tLogRow et définissez son schéma :
1. Cliquez sur le bouton [...] correspondant au champ Edit schema.
2. Dans la section Output (Input), cliquez trois fois sur le bouton [+] pour ajouter trois colonnes et nommez-les firstName, lastName et age.
3. Cliquez sur le bouton pour copier les colonnes dans le tLogRow_1 (Output).
Sélectionnez le composant tHMapInput pour ouvrir l'onglet Basic settings.
1. Cochez la case Define a storage configuration component et sélectionnez le composant tHDFSConfiguration comme composant de stockage.
2. Spécifiez le fichier d'entrée dans le champ Input.
3. Cliquez sur le bouton […] près de Configure Component et sélectionnez la structure précédemment créée.
4. Sélectionnez CSV dans la liste déroulante Input Representation.
5. Cliquez sur Next et ajoutez le fichier d'entrée et, dans le champ Sample File, puis cliquez sur Run pour vérifier le nombre d'enregistrements trouvés.
6. Cliquez sur Finish.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici