Configurer la connexion au système de fichiers à utiliser dans Spark - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Ignorez cette section si vous utilisez Google Dataproc ou HDInsight, car, pour ces deux distributions, cette connexion est configurée dans l'onglet Spark configuration.

Procédure

  1. Double-cliquez sur le tHDFSConfiguration pour ouvrir sa vue Component.

    Spark utilise ce composant pour se connecter au système HDFS auquel sont transférés les fichiers .jar dépendants du Job.

  2. Si vous avez défini la métadonnée de connexion à HDFS dans le dossier Hadoop cluster du Repository, sélectionnez Repository dans la liste déroulante Property type et cliquez sur le bouton [...] afin de sélectionner dans l'assistant Repository content la connexion à HDFS définie.

    Pour plus d'informations concernant la configuration d'une connexion à HDFS réutilisable, consultez le Guide d'utilisation du Studio Talend.

    Pour plus d'informations concernant la configuration d'une connexion à HDFS réutilisable, recherchez Centraliser des métadonnées HDFS, sur Talend Help Center (https://help.talend.com).

    Si vous terminez cette étape, vous pouvez ignorer les étapes relatives à la configuration du tHDFSConfiguration, car tous les champs requis ont été automatiquement renseignés.

  3. Dans la zone Version, sélectionnez la distribution Hadoop et la version à laquelle vous connecter.
  4. Dans le champ NameNode URI, saisissez l'emplacement de la machine hébergeant le service NameNode du cluster. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
  5. Dans le champ Username, saisissez les informations d'authentification utilisées pour vous connecter au système HDFS à utiliser. Notez que le nom d'utilisateur ou d'utilisatrice doit être le même que celui saisi dans l'onglet Spark configuration.