Définition de la connexion à Hadoop

Vous devez tout d'abord définir la connexion à un environnement Hadoop donné.

Dans cet article, une distribution Cloudera est utilisée à titre d'exemple.

Avant de commencer

Assurez-vous que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.
Le cluster Hadoop à utiliser a été correctement configuré et est en cours de fonctionnement.
La perspective Integration est active.
Cloudera est l'exemple de distribution de cet article. Si vous utilisez une distribution différente, vous devez garder à l'esprit les prérequis particuliers expliqués comme suit :
- Si vous devez vous connecter à MapR à partir du Studio, assurez-vous d'avoir installé le client MapR sur la même machine que le Studio et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. Selon la documentation MapR, la ou les bibliothèques d'un client MapR correspondante(s) à chaque version de système d'exploitation peut ou peuvent être trouvée(s) sous MAPR_INSTALL\/hadoop\hadoop-VERSION/lib/native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la documentation MapR (en anglais).
- Si vous devez vous connecter à un cluster Google Dataproc, définissez le chemin d'accès du fichier d'identifiants de Google associé au compte du service à utiliser afin que la fonctionnalité Check service de l'assistant de la métadonnée puisse vérifier votre configuration.
  
  Pour plus d'informations concernant la définition de la variable d'environnement, consultez Getting Started with Authentication (en anglais) de la documentation Google.

Procédure

Dans l'arborescence Repository de votre Studio, développez Metadata et cliquez-droit sur Hadoop cluster.
Sélectionnez Create Hadoop cluster dans le menu contextuel pour ouvrir l'assistant Hadoop cluster connection.
Renseignez les informations génériques de cette connexion, comme Name et Description, cliquez sur Next pour ouvrir la fenêtre [Hadoop Configuration Import Wizard] qui vous permet de sélectionner la distribution à utiliser et le mode manuel et automatique pour configurer cette connexion.
- Retrieve configuration from Ambari or Cloudera : si vous utilisez Hortonworks Data Platform ou un cluster Cloudera CDH et que votre cluster contient sa plateforme de gestion spécifique : Hortonworks Ambari pour Hortonworks Data Platform et Cloudera Manager pour Cloudera CDH, cochez cette case pour importer directement la configuration.
- Import configuration from local files : lorsque vous avez obtenu ou que vous pouvez obtenir les fichiers de configuration (principalement les fichiers *-site.xml), par exemple, via l'administrateur du cluster Hadoop ou directement téléchargés à partir du service de gestion de cluster basé Web, utilisez cette option pour importer les propriétés directement à partir de ces fichiers.
- Enter manually Hadoop services : cliquez sur Finish et saisissez manuellement les paramètres de connexion.
Avec l'approche automatique ou avec l'approche manuelle, les paramètres que vous devez définir sont les suivants :
- Namenode URI : saisissez l'URI de la machine NameNode du cluster à utiliser.
- Resource Manager et Resource Manager scheduler : saisissez respectivement l'URI pointant vers la machine utilisée par le service Resource Manager de votre cluster et l'adresse de son ordonnanceur.
- Job history : saisissez l'emplacement du serveur JobHistory de votre cluster. Cela permet de stocker les métriques du Job courant sur le serveur de JobHistory.
- Staging directory : saisissez le répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par des programmes en cours d'exécution. Généralement, ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.
- Use datanode hostname : cochez cette case pour permettre au Job d'accéder aux nœuds de données via leurs hébergeurs. Cela permet de configurer la propriété dfs.client.use.datanode.hostname à true.
- Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans le champ User name, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio sera utilisé.
Vérifiez que votre cluster est sécurisé et gardez à l'esprit que la configuration de sécurité ne peut pas être contextualisée.

Si vous accédez au cluster Hadoop s'exécutant avec la sécurité Kerberos, cochez cette case. Saisissez les noms des principaux Kerberos pour le service du ResourceManager et le service du JobHistory dans les champs qui s'affichent. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution, comme yarn-site.xml et mapred-site.xml.

Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend.

l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter un Job est user1 et le Principal à utiliser est guest. Ici, assurez-vous que user1 a le droit de lire le fichier Keytab à utiliser.
Ajoutez les propriétés avancées de Hadoop si elles sont requises par votre cluster et gardez à l'esprit que ces propriétés ne peuvent pas être contextualisées. Cliquez sur le bouton [...] pour ouvrir la table des propriétés et ajouter la ou les propriétés à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le Studio pour son moteur Hadoop.
Si votre Studio supporte la création de Jobs Apache Spark et que votre cluster attend des propriétés Spark avancées, utilisez la case Use Spark properties pour ouvrir les propriétés de la table et ajouter la ou les propriétés à utiliser. Gardez à l’esprit que ces propriétés ne peuvent pas être contextualisées.

Lorsque vous réutilisez cette connexion dans vos Jobs Apache Spark, les propriétés Spark avancées que vous avez ajoutées ici sont automatiquement ajoutées aux configurations de Spark pour ces Jobs.
Si vous utilisez Cloudera V5.5+ pour exécuter les Jobs MapReduce ou Apache Spark Batch, vous pouvez cocher la case Use Cloudera Navigator pour utiliser Cloudera Navigator afin de visualiser le lignage d'un flux de données en particulier afin de découvrir comment ce flux de données a été généré par un Job. Toutefois, gardez à l'esprit que la configuration de Cloudera Navigator ne peut pas être contextualisée.
Lorsque cette option est activée, vous devez configurer les paramètres suivants :
- Username et Password : informations d'authentification utilisées pour vous connecter à votre Cloudera Navigator.
- Cloudera Navigator URL : saisissez l'emplacement du Cloudera Navigator pour vous connecter.
- Cloudera Navigator Metadata URL : saisissez l'emplacement où sont stockées les métadonnées (Navigator Metadata).
- Activate the autocommit option : cochez cette case pour que le Cloudera Navigator génère le lignage du Job courant à la fin de son exécution.
  
  Comme cette option force le Cloudera Navigator à générer des lignages de toutes ses entités disponibles, comme les fichiers et répertoires HDFS, les requêtes Hive ou les scripts Pig, il n'est pas recommandé de l'utiliser dans un environnement de production, car elle ralentit le Job.
- Kill the job if Cloudera Navigator fails : cochez cette case pour arrêter l'exécution du Job lorsque la connexion à Cloudera Navigator échoue.
  
  Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.
- Disable SSL validation : cochez cette case pour que votre Job se connecte au Cloudera Navigator sans processus de validation SSL.
  
  Cette fonctionnalité est conçue pour simplifier les tests de vos Jobs mais il n'est pas recommandé de l'utiliser dans un cluster en production.
Cliquez sur le bouton Check services afin de vérifier que le Studio peut se connecter au NameNode et au JobTracker ou ResourceManager spécifiés dans cet assistant. Une boîte de dialogue s'ouvre pour indiquer le processus de vérification et le statut de connexion. Si la connexion échoue, vous devez vérifier et mettre à jour les informations de connexion définies dans l'assistant de connexion.
Cliquez sur Finish pour valider vos modifications et fermer l'assistant.

La nouvelle connexion à Hadoop s'affiche dans le dossier Hadoop cluster de la vue Repository. Cette connexion ne contient pas de sous-dossier tant que vous ne créez pas d'élément dans cette distribution.

Définition de la connexion à Hadoop - 7.3

Configuration de connexions à Hadoop en fonction du contexte

Avant de commencer

Procédure