Centraliser une connexion Hadoop - 6.1

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Configurer une connexion à une distribution Hadoop donnée dans le Repository vous permet d'éviter d'avoir à configurer cette connexion à chaque fois que vous souhaitez utiliser la même distribution Hadoop.

Vous devez tout d'abord définir une connexion Hadoop avant de pouvoir créer, à partir du nœud Hadoop cluster, les connexions de chaque élément de Hadoop comme HDFS, Hive ou Oozie.

Prérequis :

Avant d'effectuer les procédures suivantes pour configurer votre connexion Hadoop, vérifiez que vous avez accès à la distribution Hadoop à laquelle vous souhaitez vous connecter.

Si vous devez vous connecter à MapR à partir du studio, assurez-vous d'avoir installé le client MapR sur la même machine que le studio et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

Afin de créer une connexion Hadoop dans le Repository, procédez comme suit :

  1. Dans la vue Repository de votre studio, développez le nœud Metadata puis cliquez-droit sur Hadoop cluster.

  2. Sélectionnez Create Hadoop cluster dans le menu contextuel afin d'ouvrir l'assistant [Hadoop cluster connection].

  3. Renseignez les informations génériques du schéma, comme le nom, dans le champ Name et la Description puis cliquez sur Next pour ouvrir l'assistant vous permettant d'importer une configuration prête à l'emploi, s'il y en a.

  4. Dans la zone Distribution, sélectionnez la distribution et la version de Hadoop que vous souhaitez utiliser.

    Dans la liste Distribution, sélectionnez Custom si vous souhaitez vous connecter à une distribution Hadoop qui n'est pas officiellement supportée par le Studio. Afin d'obtenir un exemple illustrant l'utilisation de l'option Custom, consultez Connexion à une distribution Hadoop personnalisée.

    Notez que certaines versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple, car de nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est recommandé de configurer une telle connexion uniquement si vos connaissances relatives à Hadoop sont suffisantes pour réparer les problèmes par vous-même.

    Si l'option Custom est sélectionnée, la liste Authentication apparaît. Vous devez alors sélectionner le mode d'authentification requis par la distribution Hadoop à laquelle vous souhaitez vous connecter.

  5. Choisissez comment paramétrer la configuration depuis l'assistant d'import.

    • Retrieve configuration from Ambari or Cloudera : selon la distribution sélectionnée, vous pouvez accéder à l'assistant correspondant afin de paramétrer la connexion à Hortonworks Ambari ou à Cloudera Manager pour importer les informations de configuration dans le Studio.

      Pour plus d'informations, consultez Récupérer la configuration depuis Ambari ou Cloudera.

    • Import configuration from local files : lorsque vous avez obtenu les fichiers de configuration (principalement les fichiers *-site.xml), par exemple, de l'administrateur du cluster Hadoop ou que vous les avez téléchargés depuis le service de gestion du cluster basé Web, utilisez cette option pour importer les propriétés directement depuis ces fichiers.

      Pour plus d'informations, consultez Importer des configurations depuis des fichiers locaux.

    • Enter manually Hadoop services : avec cette option, vous saisissez manuellement les informations de configuration dans l'assistant correspondant afin de créer la connexion au cluster Hadoop à utiliser.

      Pour plus d'informations, consultez Saisir manuellement la configuration Hadoop.

Récupérer la configuration depuis Ambari ou Cloudera

Si vous accédez au service de gestion basé Web de votre cluster, Ambari pour Hortonworks ou Cloudera Manager pour Cloudera, sélectionnez cette option Retrieve configuration from Ambari or Cloudera pour importer les informations de configuration directement depuis ce service de gestion.

La capture d'écran ci-dessus présente un exemple de l'assistant pour récupération de la configuration.

Dans cet assistant, procédez comme suit :

  1. Dans la zone des informations d'authentification, saisissez celles de connexion au service de gestion basé Web du cluster à utiliser. Dans cet exemple, connectez-vous à Cloudera Manager.

  2. Si le système de certificat a été configuré pour le service de gestion auquel vous souhaitez vous connecter, cochez la case Use authentication pour activer les champs correspondants et les renseigner à l'aide de votre fichier TrustStore.

    Si vous n'êtes pas en possession de ce fichier TrustStore, contactez l'administrateur du cluster.

    Hortonworks et Cloudera fournissent les informations de sécurité relatives au service de gestion basé Web dans leur documentation. Pour plus d'informations, consultez la documentation relative, sur leurs sites Web :

  3. Cliquez sur le bouton Connect pour créer la connexion du Studio vers Ambari ou Cloudera Manager.

    Le nom du cluster géré par ce service de gestion de cluster s'affiche dans la liste Discovered clusters.

  4. Cliquez sur le bouton Fetch afin de récupérer et lister les configurations des services de ce cluster dans cet assistant.

  5. Sélectionnez les services pour lesquels vous souhaitez importer les informations de configuration.

  6. Cliquez sur Finish.

    Les informations de configuration correspondantes sont automatiquement renseignées dans l'étape suivante de l'assistant [Hadoop cluster connection].

  7. Dans cet assistant [Hadoop cluster connection], vérifiez que la case Use custom Hadoop configruations est cochée, afin d'assurer que la configuration complète importée est prise en compte. Si vous décochez cette case, le Studio utilise sa configuration Hadoop par défaut (sous forme d'un fichier .jar) au lieu de prendre en compte les paramètres supplémentaires explicitement configurés par vos soins dans l'assistant.

    Pour cette raison, il et important de cocher cette case et de vous assurer que votre configuration personnalisée écrase celle par défaut.

  8. Cliquez sur Finish pour valider les modifications.

Pour plus d'informations concernant les champs automatiquement renseignés dans l'assistant [Hadoop cluster connection], consultez Saisir manuellement la configuration Hadoop

Importer des configurations depuis des fichiers locaux

Une fois l'option Import configuration from local files sélectionnée dans l'assistant d'import, l'assistant s'ouvre et vous permet de sélectionner les fichiers de configuration Hadoop (principalement les fichiers *-site.xml) à utiliser depuis une machine locale.

Dans cet assistant, procédez comme suit :

  1. Cliquez sur Browse... pour accéder au dossier dans lequel sont stockés les fichiers locaux de configuration à utiliser et cliquez sur OK pour lister les configurations dans cet assistant.

    Il est recommandé de stocker ces fichiers de configuration à un emplacement ayant un chemin d'accès court sur la machine locale.

    La capture d'écran suivante présente des fichiers utilisés pour la configuration de HDFS, MapReduce et Yarn dans Cloudera. Ces fichiers sont téléchargés et automatiquement générés par Cloudera Manager.

  2. Dans la liste de configuration, sélectionnez les configurations à importer, par exemple, celles pour HDFS et MAPREDUCE2, puis cliquez sur Finish.

    Les informations de configuration correspondantes sont automatiquement renseignées dans l'étape suivante de l'assistant [Hadoop cluster connection].

  3. Dans cet assistant [Hadoop cluster connection], vérifiez que la case Use custom Hadoop configruations est cochée, afin d'assurer que la configuration complète importée est prise en compte. Si vous décochez cette case, le Studio utilise sa configuration Hadoop par défaut (sous forme d'un fichier .jar) au lieu de prendre en compte les paramètres supplémentaires explicitement configurés par vos soins dans l'assistant.

    Pour cette raison, il et important de cocher cette case et de vous assurer que votre configuration personnalisée écrase celle par défaut.

  4. Cliquez sur Finish pour valider les modifications.

Pour plus d'informations concernant les champs automatiquement renseignés dans l'assistant [Hadoop cluster connection], consultez Saisir manuellement la configuration Hadoop.

Saisir manuellement la configuration Hadoop

Même si l'import d'une configuration Hadoop donnée est efficace, si nécessaire, vous pouvez sélectionner Enter manually Hadoop services afin de saisir directement les paramètres dans l'assistant [Hadoop Cluster Connection].

Dans cet assistant, procédez comme suit :

  1. Renseignez les champs disponibles selon la version sélectionnée. Notez que, parmi ces champs, les champs NameNode URI et JobTracker URI (ou Resource Manager) ont été automatiquement renseignés avec la syntaxe par défaut et le numéro de port correspondants à la distribution sélectionnée. Vous devez mettre à jour uniquement la partie dont vous avez besoin, selon la configuration du cluster Hadoop à utiliser. Pour plus d'informations concernant les différents champs à utiliser, consultez la liste suivante.

    Les champs peuvent être :

    • Namenode URI :

      Saisissez l'URI pointant vers la machine utilisée comme NameNode de la distribution Hadoop à utiliser.

      Le NameNode est le nœud maître d'un système Hadoop. Par exemple, si vous avez choisi une machine nommée machine1 comme NameNode d'une distribution Apache Hadoop, l'emplacement à saisir est hdfs://machine1:portnumber.

      Si vous utilisez une distribution MapR, vous pouvez simplement laisser maprfs:/// dans le champ. Le client MapR va gérer les informations à la volée lors de la création de la connexion. Le client MapR doit être correctement installé. Pour plus d'informations concernant la configuration d'un client MapR, consultez la page suivante de la documentation MapR : http://doc.mapr.com/display/MapR/Setting+Up+the+Client (en anglais).

    • Resource Manager :

      Saisisse l'URI pointant vers la machine utilisée comme service du gestionnaire de ressources (Resource Manager) de la distribution Hadoop à utiliser.

      Notez que, dans certaines anciennes versions des distributions Hadoop, vous devez configurer l'emplacement du service du JobTracker au lieu du service du gestionnaire de ressources.

      Vous devez configurer les adresses des services relatifs, comme l'adresse due Resourcemanager scheduler. Lorsque vous utilisez cette connexion dans un composant Big Data, comme le tHiveConnection, vous pouvez allouer de la mémoire aux calculs Map et Reduce et à l'ApplicationMaster de YARN dans la vue Advanced settings. Pour plus d'informations concernant le Resource Manager, son ordonnanceur et son ApplicationMaster, consultez la documentation de YARN pour votre distribution, par exemple à l'adresse suivante :

      http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/.

      Note

      Pour rendre le nom du serveur Hadoop reconnaissable par le client et les ordinateurs hôtes, vous devez établir une entrée de mapping de l'adresse IP/nom d'hôte pour le nom de l'hôte dans les fichiers hosts correspondants du client et des ordinateurs hôtes. Par exemple, le nom de l'hôte du serveure Hadoop est talend-all-hdp et son adresse IP est 192.168.x.x, son entrée de mapping est la suivante 192.168.x.x talend-all-hdp. Pour un système Windows, vous devez ajouter l'entrée au fichier C:\WINDOWS\system32\drivers\etc\hosts (si Windows est installé sur le disque C). Pour un système Linux, vous devez ajouter l'entrée au fichier /etc/hosts.

    • Job history :

      Saisissez l'emplacement du serveur de JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les méreiques du Job courant sur le serveur de JobHistory.

    • Staging directory :

      Saisissez le répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créées par les programmes en cours d'exécution. Généralement, ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.

    • Use datanode hostname :

      Cochez cette case pour permettre au Job d'accéder aux nœuds de données (datanodes) via leurs noms d'hôtes. Cela permet de configurer la propriété dfs.client.use.datanode.hostname à true. Si cette connexion doit être utilisée par un Job se connectant à un système de fichiers S3N, cochez cette case.

    • Enable Kerberos security :

      Si vous accédez à une distribution Hadoop s'exécutant avec la sécurité Kerberos, cochez cette case, puis saisissez le nom du Principal de Kerberos pour le NameNode dans le champ activé. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, grâce aux informations d'authentification stockées dans Kerberos.

      De plus, comme ce composant effectue des calculs MapReduce, vous devez authentifier les services associés, comme le serveur de l'historique des Jobs et le Resource Manager ou le Jobtracker selon votre distribution, dans le champ correspondant. Ces Principaux se trouvent dans les fichiers de configuration de votre distribution. Par exemple, dans une distribution CDH4, le Principal du Resource Manager est configuré dans le fichier yarn-site.xml et le Principal de Job History dans le fichier mapred-site.xml.

      Si vous devez utiliser un fichier Keytab pour vous connecter, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le Principal à utiliser dans le champ Principal. Dans le champ Keytab, parcourez votre système jusqu'au fichier Keytab à utiliser.

      L'utilisateur exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, lr nom d'utilisateur que vous utilisez pour exécuter un Job est user1 et le Principal à utiliser est guest. Ici, assurez-vous que user1 a le droit de lire le fichier Keytab à utiliser.

    • User name :

      Saisissez le nom d'authentification de l'utilisateur de la disribution Hadoop à utiliser.

      Si vous laissez ce champ vide, le Studio utilise votre identifiant à la machine client sur laquelle vous travailler, pour accéder à la distribution Hadoop. Par exemple, si vous utilisez le Studio sur une machine Windows et que votre identifiant est Company, l'identifiant utilisé lors de l'exécution est Company.

    • Group:

      Saisissez le nom du groupe auquel l'utilisateur authentifié appartient.

      Notez que ce champ est activé selon la distribution que vous utilisez.

    • Hadoop properties :

      Si vous devez utiliser une configuration personnalisée pour la distribution Hadoop à utiliser, cliquez sur le bouton [...] pour ouvrir la table des propriétés et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, ces modifications écrasent les propriétés par défaut correspondantes utilisées par le Studio pour son moteur Hadoop.

      Notez que les propriétés définies dans cette table sont héritées et réutilisées par les connexions filles que vous pouvez créer à partir de cette connexion Hadoop.

      Pour plus d'informations concernant les propriétés Hadoop, consultez la documentation Apache Hadoop à l'adresse suivante http://hadoop.apache.org/docs/current/ (en anglais), ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, la page suivante liste certaines des propriétés Hadoop par défaut : https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml (en anglais).

      Pour plus d'informations concernant cette table des propriétés, consultez Configuration des propriétés réutilisables de Hadoop.

    • Lorsque la distribution à utiliser est Microsoft HD Insight, vous devez paramétrer la configuration de WebHCat configuration, HDInsight configuration et Window Azure Storage au lieu des paramètres mentionnés ci-dessus. En plus des informations d'authentification à fournir dans ces zones de configuration, vous devez configurer les paramètres suivants :

      • Dans le champ Job result folder, saisissez l'emplacement dans lequel stocker le résultat d'exécution d'un Job Talend dans Azure Storage.

      • Dans le champ Deployment Blob, saisissez l'emplacement dans lequel stocker un Job Talend et ses bibliothèques dépendantes dans ce compte Azure Storage.

      Une vidéo de démonstration concernant la configuration est disponible à l'adresse suivante : https://www.youtube.com/watch?v=A3QTT6VsNoM (en anglais).

  2. Pour chaque distribution officiellement supportée par Talend, une configuration Hadoop par défaut (sous forme d'un fichier .jar) est automatiquement chargée par le Studio afin de compléter les paramètres explicitement définis par vos soins dans l'assistant.

    Si vous souhaitez utiliser votre configuration personnalisée afin de remplacer celle par défaut, cochez la case Use custom Hadoop confs puis cliquez sur le bouton [...] pour ouvrir l'assistant d'import, pour importer la configuration depuis Ambari, Cloudera Manager ou depuis des fichiers locaux.

    Notez que cet import écrase uniquement la configuration Hadoop par défaut utilisée par le Studio mais n'écrase pas les paramètres définis dans l'assistant [Hadoop cluster connection].

    Pour plus d'informations concernant cet import, consultez Récupérer la configuration depuis Ambari ou Cloudera et Importer des configurations depuis des fichiers locaux.

  3. Cliquez sur le bouton Check services afin de vérifier que le Studio peut se connecter au NameNode et au JobTracker ou ResourceManager spécifiés dans cet assistant.

    Une boîte de dialogue s'ouvre et indique le processus de vérification ainsi que le statut de connexion. Si la connexion échoue, vous devez vérifier et mettre à jour les informations de connexion définies dans l'assistant de connexion.

  4. Cliquez sur Finish afin de valider vos modifications et fermer l'assistant.

    La nouvelle connexion à Hadoop s'affiche dans le dossier Hadoop cluster de la vue Repository. Cette connexion ne contient pas de sous-dossier tant que vous ne créez pas d'élément dans cette distribution.

Connexion à une distribution Hadoop personnalisée

Lorsque vous sélectionnez l'option Custom dans la liste déroulante Distribution mentionnée ci-dessus, vous pouvez vous connectez à une distribution Hadoop différente des autres distributions Hadoop fournies dans la liste Distribution dans le Studio.

Une fois l'option Custom sélectionnée, cliquez sur le bouton pour afficher la boîte de dialogue [Import custom definition], puis procédez comme suit :

Notez que certaines versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple, car de nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est recommandé de configurer une telle connexion uniquement si vos connaissances relatives à Hadoop sont suffisantes pour réparer les problèmes par vous-même.

  1. Selon votre cas, sélectionnez Import from existing version ou Import from zip afin de configurer la distribution Hadoop personnalisée à laquelle vous souhaitez vous connecter.

    • Si vous avez le fichier .zip de configuration de la distribution Hadoop à laquelle vous souhaitez vous connecter, sélectionnez Import from zip. Dans Talend Exchange, des membres de la Communauté Talend ont partagé des fichiers zip de configuration prêts à utiliser, que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion. Cependant, avec l'évolution en continu des différents projets relatifs à Hadoop, il est possible que vous ne trouviez pas dans la liste le zip de configuration correspondant à votre distribution. Il est alors recommandé d'utiliser l'option Import from existing version, afin de se baser sur une distribution existante pour ajouter les .jars requis par votre distribution.

      Les fichiers .zip sont des fichiers de configuration et ne peuvent être installés directement depuis Talend Exchange.

    • Sinon, sélectionnez Import from existing version pour importer une distribution de base officiellement supportée afin de la personnaliser à l'aide de l'assistant. Adopter cette approche nécessite des connaissances relatives à la configuration de la distribution Hadoop à utiliser.

    Notez que les cases de cet assistant vous permettent de sélectionner le(s) élément(s) Hadoop que vous souhaitez importer. Selon le contexte dans lequel vous créez la connection, toutes les cases ne sont pas disponibles. Par exemple, si vous créez cette connexion pour Oozie, seule la case Oozie est disponible.

  2. Que vous ayez sélectionné Import from existing version ou Import from zip, vérifiez que chaque case à côté de l'élément Hadoop que vous souhaitez importer est cochée.

  3. Cliquez sur OK et, dans la fenêtre d'avertissement, cliquez sur Yes pour accepter d'écraser toute configuration personnalisée des fichiers Jar précédemment implémentée.

    La boîte de dialogue [Custom Hadoop version definition] devient active.

    Cette boîte de dialogue liste les éléments Hadoop et les fichiers Jar que vous importez.

  4. Si vous avez coché l'option Import from zip, cliquez sur OK afin de valider la configuration importée.

    Si avez sélectionné l'option Import from existing version, afin d'importer une distribution de base, vous devez également importer des fichiers jar pour personnaliser cette distribution. Dans l'onglet de l'élément Hadoop que vous souhaitez personnaliser, par exemple l'onglet HDFS/HCatalog/Oozie, cliquez sur le bouton [+] pour ouvrir la boîte de dialogue [Select libraries].

  5. Sélectionnez l'option External libraries pour ouvrir sa vue.

  6. Cliquez sur le bouton Browse... et parcourez votre système jusqu'au fichier Jar que vous souhaitez importer.

  7. Cliquez sur OK pour valider les modifications et fermer la boîte de dialogue [Select libraries].

    Le fichier Jar sélectionné apparaît dans la liste de l'onglet de l'élément Hadoop configuré.

    Notez que si vous souhaitez partager la configuration personnalisée Hadoop avec un autre Studio Talend, vous pouvez exporter cette connexion personnalisée de la boîte de dialogue [Custom Hadoop version definition] en cliquant sur le bouton .

  8. Dans la boîte de dialogue [Custom Hadoop version definition], cliquez sur OK afin de valider la configuration personnalisée et retourner à la vue de configuration dans laquelle vous avez sélectionné l'option Custom.

Une fois la configuration de la distribution Hadoop personnalisée terminée vous pouvez, depuis la vue de configuration de la connexion Hadoop, continuer de saisir d'autres paramètres requis pour la connexion.

Si la distribution Hadoop personnalisée à laquelle vous souhaitez vous connecter contient YARN, cochez la case Use YARN à côté de la liste Distribution.