Ignorez cette section si vous utilisez Google Dataproc ou HDInsight, car, pour ces deux distributions, cette connexion est configurée dans l'onglet Spark configuration.
Procédure
-
Double-cliquez sur le tHDFSConfiguration pour ouvrir sa vue Component.
Spark utilise ce composant pour se connecter au système HDFS auquel sont transférés les fichiers .jar dépendants du Job.
-
Si vous avez défini la métadonnée de connexion à HDFS dans le dossier Hadoop cluster du Repository, sélectionnez Repository dans la liste déroulante Property type et cliquez sur le bouton [...] afin de sélectionner dans l'assistant Repository content la connexion à HDFS définie.
Pour plus d'informations concernant la configuration d'une connexion à HDFS réutilisable, consultez Guide d'utilisation de Talend Data Fabric Studio
Pour plus d'informations concernant la configuration d'une connexion à HDFS réutilisable, recherchez Centraliser des métadonnées HDFS, sur Talend Help Center (https://help.talend.com).
Si vous terminez cette étape, vous pouvez ignorer les étapes relatives à la configuration du tHDFSConfiguration, car tous les champs requis ont été automatiquement renseignés.
-
Dans la zone Version, sélectionnez la distribution Hadoop et la version à laquelle vous connecter.
-
Dans le champ NameNode URI, saisissez l'emplacement de la machine hébergeant le service NameNode du cluster. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
-
Dans le champ Username, saisissez les informations d'authentification utilisées pour vous connecter au système HDFS à utiliser. Notez que le nom d'utilisateur·trice doit être le même que celui saisi dans l'onglet Spark configuration.