Configuring the connection to the file system to be used by Spark - 7.0

Guide de prise en main de Talend Real-Time Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Ignorez cette section si vous utilisez Google Dataproc ou HDInsight, car, pour ces deux distributions, cette connexion est configurée dans l'onglet Spark configuration.

Procédure

  1. Double-cliquez sur le tHDFSConfiguration pour ouvrir sa vue Component.

    Spark utilise ce composant pour se connecter au système HDFS auquel sont transférés les fichiers .jar dépendants du Job.

  2. Si vous avez défini la métadonnée de connexion à HDFS dans le dossier Hadoop cluster du Repository, sélectionnez Repository dans la liste déroulante Property type et cliquez sur le bouton [...] afin de sélectionner dans l'assistant Repository content la connexion à HDFS définie.

    Exemple

    Pour plus d'informations concernant la configuration d'une connexion à HDFS réutilisable, consultez Centraliser des métadonnées HDFS

    Si vous terminez cette étape, vous pouvez ignorer les étapes relatives à la configuration du tHDFSConfiguration, car tous les champs requis ont été automatiquement renseignés.

  3. Dans la zone Version, sélectionnez la distribution Hadoop et la version à laquelle vous connecter.
  4. Dans le champ NameNode URI, saisissez l'emplacement de la machine hébergeant le service NameNode du cluster. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber. Si ce WebHDFS est sécurisé via SSL, le schéma d'URI doit être swebhdfs et vous devez utiliser un tLibraryLoad dans le Job pour charger la bibliothèque requise par votre WebHDFS sécurisé.
  5. Dans le champ Username, saisissez les informations d'authentification utilisées pour vous connecter au système HDFS à utiliser. Notez que le nom d'utilisateur doit être le même que celui saisi dans l'onglet Spark configuration.