Configuration de la connexion à HDFS - 7.0

Guide de prise en main de Talend Real-Time Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Une connexion à HDFS dans le Repository vous permet de réutiliser cette connexion dans différents Jobs associés.

Avant de commencer

  • La connexion au cluster Hadoop hébergeant le système HDFS à utiliser doit avoir été configurée depuis le nœud Hadoop cluster dans le Repository.

    Pour plus d'informations concernant la création de cette connexion, consultez Configuration manuelle de la connexion à Hadoop.

  • Le cluster Hadoop à utiliser doit avoir été correctement configuré et être en cours d'exécution. Vous devez avoir les droits d'accès à cette distribution et à HDFS.

  • Vérifiez que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.

Procédure

  1. Développez le nœud Hadoop cluster sous le nœud Metadata dans la vue Repository puis cliquez-droit sur la connexion Hadoop utilisée et sélectionnez Create HDFS dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description.
  3. Une fois les champs remplis, cliquez sur Next pour passer à l'étape suivante. L'étape suivante vous permet de renseigner les données de connexion à HDFS.

    La propriété User name est automatiquement renseignée par la valeur héritée de la connexion Hadoop sélectionnée dans les étapes précédentes.

    Les champs Row separator et Field separator utilisent les valeurs par défaut.

  4. Cochez la case Set heading row as column names pour utiliser les lignes d'en-tête du fichier HDFS comme noms de colonnes dans ce fichier.

    Automatiquement, la case Header est cochée et la valeur dans le champ Header est 1. Cela signifie que la première ligne du fichier sera ignorée en tant que corps des données mais sera utilisée comme noms de colonnes dans le fichier.

  5. Cliquez sur Check afin de vérifier votre connexion.

    Un message s'affiche pour indiquer si la connexion est établie.

  6. Cliquez sur Finish afin de valider ces changements.

Résultats

La nouvelle connexion à HDFS est disponible sous le nœud Hadoop cluster, dans le Repository. Vous pouvez l'utiliser pour définir et centraliser les schémas des fichiers stockés dans le système HDFS connecté afin de réutiliser ces schéma dans des Jobs Talend.