Contextualisez les paramètres de connexion à Hadoop pour rendre cette connexion portable
dans différents environnements Hadoop comme l'environnement de test et l'environnement
de production.
Avant de commencer
Vérifiez que la machine cliente sur laquelle est installé le Studio Talend peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.
Par exemple, si le nom d'hôte du serveur du NameNode Hadoop est talend-cdh550.weave.local, et son adresse IP est 192.168.x.x, l'entrée du mapping est la suivante : 192.168.x.x talend-cdh550.weave.local.
Le cluster Hadoop à utiliser a été correctement configuré et est en cours de fonctionnement.
Une connexion à Hadoop a été correctement définie en suivant les étapes présentées dans Définition de la connexion à Hadoop.
-
La perspective Integration est active.
-
Cloudera est l'exemple de distribution de cet article. Si vous utilisez une
distribution différente, vous devez garder à l'esprit les prérequis
particuliers expliqués comme suit :
-
Si vous devez vous connecter à MapR à partir du Studio,
assurez-vous d'avoir installé le client MapR dans une machine où
le Studio est stocké et d'avoir ajouté la bibliothèque du client
MapR client à la variable PATH de cette machine. Selon la
documentation MapR, la ou les bibliothèques d'un client MapR
correspondante(s) à chaque version de système d'exploitation
peut ou peuvent être trouvée(s) sous
MAPR_INSTALL\/hadoop\hadoop-VERSION/lib/native.
Par exemple, la bibliothèque pour Windows est
\lib\native\MapRClient.dll dans le
fichier .jar client MapR. Pour plus d'informations, consultez le
site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr
(en anglais).
Si vous devez vous connecter à un cluster Google Dataproc, définissez le chemin d'accès du
fichier d'identifiants de Google associé au compte du service à
utiliser afin que la fonctionnalité Check service de
l'assistant de la métadonnée puisse vérifier votre
configuration.
Pour plus d'informations concernant la définition de la variable
d'environnement, consultez Getting Started with
Authentication (en anglais) de la documentation
Google.
Procédure
-
Dans l'arborescence Repository de votre Studio,
développez Metadata et Hadoop
cluster avant de double-cliquer sur la connexion à Hadoop que
vous avez créée en suivant les étapes présentées dans Définition de la connexion à Hadoop.
-
Cliquez sur Next pour aller à la fenêtre de la deuxième
étape de cet assistant et cliquez sur le bouton Export as
context.
-
Dans l'assistant [Create/Resue a context group],
sélectionnez Create a new repository context et cliquez
surNext.
-
Dans la fenêtre de l'étape 1 [Create/Resue a context
group], ajoutez au moins le nom que vous souhaitez utiliser pour
le groupe de contextes à créer, par exemple,
smart_connection et cliquez sur
Next.
Une vue en lecture seule de ce groupe de contextes est créée et renseignée
automatiquement avec les paramètres d'une connexion à Hadoop donnée que vous
avez définie dans Définition de la connexion à Hadoop.
Vous pouvez également noter que tous les paramètres de connexion ne sont pas
ajoutés au groupe de contextes, ce qui signifie qu'ils ne sont pas tous
contextualisés, comme prévu.
-
Cliquez sur Finish pour passer à l'étape 2 de
l'assistant de connexion Hadoop.
Les paramètres de connexion ont été automatiquement définis pour utiliser des
variables de contexte et rester en lecture seule.
-
Cliquez sur Finish pour valider ces modifications.
Ce nouveau groupe de contextes, nommé
smart_connection, a été créé sous le nœud
Contexts.
-
Dans Repository, double-cliquez sur ce nouveau groupe de
contextes afin d'ouvrir l'assistant [Create/Edit a context
group].
-
Cliquez sur Next pour passer à l'étape 2 afin de
modifier les variables de contextes.
-
Cliquez sur le bouton [+] pour ouvrir l'assistant
[Configure contexts], à partir duquel vous allez
ajouter un nouveau contexte.
-
Cliquez sur New pour ouvrir l'assistant [New
context] et saisissez le nom de ce nouveau contexte, par exemple
prod.
-
Cliquez sur OK pour valider les modifications et fermez
l'assistant [New context]. Le nouveau contexte est ajouté
dans liste de contexte.
-
Cliquez sur OK pour valider l'ajout et fermer
l'assistant [Configure contexts] pour revenir à l'assistant
[Create/Edit a context group].
-
Définissez le nouveau contexte pour contenir les valeurs des paramètres de
connexion pour un cluster Hadoop différent, par exemple votre cluster de
production.
-
Cliquez sur Finish pour valider les modifications et
accepter la propagation.
-
Revenez au nœud Hadoop cluster dans le
Repository, double-cliquez sur la connexion à Hadoop
que vous contextualisez pour ouvrir son assistant.
-
Dans la fenêtre de l'étape 2 de cet assistant, assurez-vous que la case
Use custom Hadoop configuration est cochée et cliquez
sur le bouton [...] à côté pour ouvrir l'assistant
[Hadoop configuration].
Le contexte prod est affiché dans l'assistant et le
message "Please import the jar." à côté vous demande d'importer le fichier
de configuration Hadoop spécifique au cluster Hadoop pour lequel ce contexte
prod a été créé.
Vous pouvez également remarquer que le contexte
Default a été le premier contexte généré par
cette connexion à Hadoop donnée, smart_connection,
possède déjà le fichier .jar de configuration Hadoop. Ce fichier .jar a été
généré automatiquement à la fin du processus définissant cette connexion
Hadoop et créant le contexte Default pour cette
connexion.
-
Cliquez sur le champ de ce message "Please import the jar." pour afficher le
bouton [...] et cliquez sur ce bouton pour ouvrir
l'assistant [Hadoop configuration import wizard].
Cette étape débute le même processus que celui expliqué dans Définition de la connexion à Hadoop pour définir soit
manuellement, soit automatiquement la configuration Hadoop. Toutefois, à la
fin de ce processus, cette étape doit générer uniquement le fichier .jar de
configuration Hadoop approprié pour le contexte prod
mais elle ne doit pas créer un nouvel élément de connexion Hadoop sous le
nœud Hadoop cluster.
-
Cliquez sur OK pour valider les modifications, cliquez
sur Finish pour valider la contextualisation et fermez
l'assistant de connexion Hadoop.
Si une fenêtre s'ouvre, cliquez sur Yes pour accepter
la propagation.
-
La connexion à Hadoop est contextualisée et vous pouvez continuer à créer des
connexions filles pour ses éléments comme HBase, HDFS et Hive etc. basées sur
cette connexion. Chaque assistant de connexion contient le bouton
Export as context. Utilisez-le pour contextualiser
chacune de ces connexions.
Résultats
Lorsque vous réutilisez ces connexions via la liste Property
type dans un composant donné dans vos Jobs, ces contextes sont
listés dans la vue Run du Job.