Configuration manuelle de la connexion à Hadoop - 6.3

Talend Real-time Big Data Platform Guide de prise en main

EnrichVersion
6.3
EnrichProdName
Talend Real-Time Big Data Platform
task
Administration et monitoring
Création et développement
Déploiement
Installation et mise à niveau
Qualité et préparation de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend CommandLine
Talend DQ Portal
Talend ESB
Talend Installer
Talend Runtime

Configurez la connexion à une distribution Hadoop donnée dans le Repository vous permettant d'éviter de configurer cette connexion à chaque fois que vous devez utiliser la même distribution Hadoop.

Prérequis :

  • Vous devez avoir vérifié que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

    Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante 192.168.x.x talend-cdh550.weave.local.

  • Le cluster Hadoop à utiliser doit avoir été correctement configuré et être en cours d'exécution.

  • La perspective Integration est active.

Le cluster Hadoop Cloudera à utiliser dans cet exemple est CDH V5.5 en mode YARN et applique la configuration par défaut de la distribution sans activer la sécurité Kerberos. Pour plus d'informations concernant la configuration par défaut de la distribution CDH V5.5, consultez Deploy CDH 5 on a cluster et Default ports used in CDH5 (liens en anglais).

  1. Dans la vue Repository de votre studio, développez Metadata et cliquez-droit sur Hadoop cluster.

  2. Dans le menu contextuel, sélectionnez Create Hadoop cluster pour ouvrir l'assistant [Hadoop cluster connection].

  3. Renseignez les informations génériques relatives à cette connexion, comme les champs Name et Description, puis cliquez sur Next pour ouvrir l'assistant [Hadoop configuration import wizard] vous permettant d'importer une configuration prête à l'emploi, s'il y en a.

  4. Cochez la case Enter manually Hadoop services afin de saisir manuellement les informations de configuration pour la connexion Hadoop en cours de création.

  5. Cliquez sur Finish pour fermer l'assistant d'import.

  6. Dans la liste Distribution, sélectionnez Cloudera et, dans la liste Version, sélectionnez Cloudera CDH5.5 (YARN mode).

  7. Dans le champ Namenode URI, saisissez une URI pointant vers la machine utilisée en tant que service du NameNode du cluster Hadoop Cloudera à utiliser.

    Le NameNode est le nœud maître d'un système Hadoop. Par exemple, si vous avez choisi une machine nommée machine1 en tant que NameNode, l'emplacement à saisir est hdfs://machine1:portnumber.

    Du côté cluster, la propriété associée est spécifiée dans le fichier de configuration associé nommé core-site.xml. Si vous ne connaissez pas l'URI à saisir, vérifiez la propriété fs.defaultFS dans le fichier core-site.xml de votre cluster.

  8. Dans les champs Resource manager et Resource manager scheduler, saisissez les URI pointant vers ces deux services, respectivement.

    Du côté cluster, ces deux services partagent la même machine hôte mais utilisent différents numéros de port par défaut. Par exemple, si la machine les hébergeant est resourcemanager.company.com, l'emplacement du Resource Manager est resourcemanager.company.com:8032 et l'emplacement de l'ordonnanceur du gestionnaire de ressources est resourcemanager.company.com:8030.

    Si vous ne connaissez pas le nom de la machine hébergeant ces services, vérifiez la propriété yarn.resourcemanager.hostname dans le champ de configuration nommé yarn-site.xml de votre cluster.

  9. Dans le champ Job history, saisissez l'emplacement du service du JobHistory. Ce service permet aux informations de métriques du Job courant d'être stockées sur le serveur du JobHistory.

    La propriété associée est spécifiée dans le fichier de configuration nommé mapred-site.xml de votre cluster. Pour la valeur saisie dans ce champ, vérifiez la propriété mapreduce.jobhistory.address dans le fichier mapred-site.xml.

  10. Dans le champ Staging directory, saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par les programmes d'exécutant.

    La propriété associée est spécifiée dans le fichier mapred-site.xml de votre cluster. Pour plus d'informations, vérifiez la propriété yarn.app.mapreduce.am.staging-dir dans le fichier mapred-site.xml.

  11. Cochez la case Use datanode hostname pour permettre au Studio d'accéder à chaque Datanode de votre cluster via leurs noms d'hôtes.

    Cela configure la propriété dfs.client.use.datanode.hostname de votre cluster à true.

  12. Dans le champ User name, saisissez le nom d'authentification que vous souhaitez que le Studio utilise pour se connecter au cluster Hadoop.

  13. Puisque le cluster Hadoop auquel se connecter utilise la configuration par défaut, laissez les autres champs et cases dans l'assistant tels qu'ils sont, car ils sont utilisés pour définir les configurations Hadoop personnalisées.

  14. Cliquez sur le bouton Check services afin de vérifier que le Studio peut se connecter au services du NameNode et du ResourceManager spécifiés.

    Une boîte de dialogue s'ouvre pour indiquer le statut du processus de vérification et de la connexion.

    Si la connexion échoue, vous pouvez cliquer sur Error log à la fin de chaque barre de progression afin de diagnostiquer les problèmes de connexion.

  15. Une fois que la vérification indique que la connexion est établie, cliquez sur Finish pour valider vos modifications et fermer l'assistant.

La nouvelle connexion, nommée my_cdh dans cet exemple, est affichée dans le dossier Hadoop cluster de la vue Repository.

Vous pouvez continuer à créer les connexions filles aux différents éléments Hadoop, comme HDFS ou Hive, à partir de cette connexion.