Configuration de la connexion à HDFS - 6.4

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
Une connexion à HDFS dans le Repository vous permet de réutiliser cette connexion dans différents Jobs associés.

Avant de commencer

  • La connexion au cluster Hadoop hébergeant le système HDFS à utiliser doit avoir été configurée depuis le nœud Hadoop cluster dans le Repository.

    Pour plus d'informations concernant la création de cette connexion, consultez Configuration manuelle de la connexion à Hadoop.

  • Le cluster Hadoop à utiliser doit avoir été correctement configuré et être en cours d'exécution. Vous devez avoir les droits d'accès à cette distribution et à HDFS.

  • Vérifiez que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.

Procédure

  1. Développez le nœud Hadoop cluster sous Metadata dans le Repository, cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create HDFS dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, dans les champs Name, Purpose et Description.
  3. Cliquez sur Next lorsque vous avez terminé. L'étape suivante nécessite de renseigner les informations de connexion à HDFS.

    La propriété User name est automatiquement renseignée par la valeur héritée de la connexion Hadoop sélectionnée dans les étapes précédentes.

    Les champs Row separator et Field separator utilisent les valeurs par défaut.

  4. Cochez la case Set heading row as column names pour utiliser les lignes d'en-tête du fichier HDFS comme noms de colonnes dans ce fichier.

    Automatiquement, la case Header est cochée et la valeur dans le champ Header est 1. Cela signifie que la première ligne du fichier sera ignorée en tant que corps des données mais sera utilisée comme noms de colonnes dans le fichier.

  5. Cliquez sur Check afin de vérifier votre connexion.

    Un message s'ouvre pour indiquer que la connexion est établie.

  6. Cliquez sur Finish afin de valider vos modifications.

Résultats

La nouvelle connexion à HDFS est disponible sous le nœud Hadoop cluster, dans le Repository. Vous pouvez l'utiliser pour définir et centraliser les schémas des fichiers stockés dans le système HDFS connecté afin de réutiliser ces schéma dans des Jobs Talend.