Configurer la connexion au système de fichiers HDFS de votre cluster EMR

Configurer la connexion au système de fichiers HDFS de votre cluster EMR - 7.3

Distribution Amazon EMR

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Création de Jobs > Distributions Hadoop > Amazon EMR

Last publication date

2024-02-22

Double-cliquez sur le tHDFSConfiguration pour ouvrir sa vue Component.

Spark utilise ce composant pour se connecter au système HDFS auquel sont transférés les fichiers .jar dépendants du Job.
Si vous avez défini la métadonnée de connexion à HDFS dans le dossier Hadoop cluster du Repository, sélectionnez Repository dans la liste déroulante Property type et cliquez sur le bouton [...] afin de sélectionner dans l'assistant Repository content la connexion à HDFS définie.

Pour plus d'informations concernant une connexion HDFS réutilisable, recherchez Centraliser les métadonnées HDFS sur Talend Help Center (https://help.talend.com).

Si vous terminez cette étape, vous pouvez ignorer les étapes relatives à la configuration du tHDFSConfiguration, car tous les champs requis ont été automatiquement renseignés.
Dans la zone Version, sélectionnez la distribution Hadoop et la version à laquelle vous connecter.
Dans le champ NameNode URI, saisissez l'emplacement de la machine hébergeant le service NameNode du cluster. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
Dans le champ Username, saisissez les informations d'authentification utilisées pour vous connecter au système HDFS à utiliser. Notez que le nom d'utilisateur ou d'utilisatrice doit être le même que celui saisi dans l'onglet Spark configuration.