Famille du composant
|
Big Data / Impala
| |
Fonction
|
Le composant tImpalaConnection ouvre une connexion à
une base de données Impala.
|
Objectif
|
Ce composant vous permet d'établir une connexion à Impala à réutiliser dans les autres
composants Impala de votre Job.
|
Basic settings
|
Property type
|
Peut être Built-in ou Repository.
|
|
|
Built-in : Propriétés utilisées
ponctuellement.
|
|
|
Repository : Sélectionnez le
fichier dans lequel sont stockées les propriétés du composant. Les
champs suivants sont alors pré-remplis à l'aide des données
collectées.
|
Version
|
Distribution
|
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient
selon le composant que vous utilisez. Les options de la liste dépendent des composants que
vous utilisez, Parmi ces options, les suivantes nécessitent une configuration spécifique. Si disponible dans la liste de Distribution, l'option
Microsoft HD Insight vous permet d'utiliser un
cluster Microsoft HD Insight. Dans cette optique, vous devez configurez les
connexions aux services WebHCat, HD Insight et Windows Azure Storage du cluster dans
les zones affichées. Une vidéo démontrant comment configurer cette connexion est
disponible à l'adresse suivante : https://www.youtube.com/watch?v=A3QTT6VsNoM. L'option Custom vous permet de vous connecter
à un cluster différente des clusters de la liste, par exemple une distribution
non supportée officiellement par Talend.
Pour vous connecter à une distribution personnalisée, une fois l'option Custom sélectionnée, cliquez sur le bouton pour afficher une fenêtre, dans laquelle vous pouvez : Sélectionner Import from existing version pour importer
une distribution de base officiellement supportée et ajouter manuellement les autres
Jars requis non fournis par cette distribution. Ou, Sélectionner Import from zip pour importer le fichier .zip
de configuration pour la distribution personnalisée à utiliser. Ce fichier zip doit
contenir les bibliothèques des différents éléments Hadoops et le fichier d'index de
ces bibliothèques. Dans Talend
Exchange, des membres de la Communauté Talend ont partagé des fichiers zip de configuration prêts
à utiliser, que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion.
Cependant, avec l'évolution en continu des différents projets relatifs à Hadoop, il
est possible que vous ne trouviez pas dans la liste le zip de configuration
correspondant à votre distribution. Il est alors recommandé d'utiliser l'option
Import from existing version, afin de se baser
sur une distribution existante pour ajouter les .jars requis par votre
distribution. Notez que certaines versions personnalisées ne sont pas officiellement supportées
par Talend. Talend et sa Communauté fournissent
l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais
ne peuvent garantir que la configuration de la version choisie sera simple, car de
nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est
recommandé de configurer une telle connexion uniquement si vos connaissances
relatives à Hadoop sont suffisantes pour réparer les problèmes par vous-même. NoteDans cette boîte de dialogue, la case de la zone active doit être cochée, afin
d'importer les fichiers .jar correspondant à la connexion créée entre la
distribution personnalisée et ce composant. Pour un exemple étape par étape expliquant comment se connecter à une distribution
personnalisée et partager cette connexion, consultez Connexion à une distribution Hadoop personnalisée.
|
|
Impala version
|
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles
dépendent du composant que vous utilisez. En plus de l'évolution de Hadoop, veuillez noter
les changements suivants : Si vous utilisez Hortonworks Data Platform V2.2,
les fichiers de configuration de votre cluster peuvent utiliser des variables
d'environnement comme ${hdp.version}. Si vous
êtes dans cette situation, vous devez configurer la propriété mapreduce.application.framework.path dans la table
Hadoop properties de ce composant, avec la valeur
du chemin d'accès pointant explicitement vers l'archive du framework MapReduce de
votre cluster. Par exemple :
mapreduce.application.framework.path=/hdp/apps/2.2.0.0-2041/mapreduce/mapreduce.tar.gz#mr-framework Si vous utilisez Hortonworks Data Platform
V2.0.0, le type de système d'exploitation utilisé pour la distribution
Hadoop et pour le Job Talend doit être identique, par exemple
Windows ou Linux. Sinon, vous devez utiliser le Jobserver de Talend afin
d'exécuter un Job dans le même type de système d'exploitation que celui dans lequel
la distribution Hortonworks Data Platform V2.0.0
utilisée est exécutée. Pour plus d'informations concernant le Jobserver de Talend,
consultez le Guide d'installation Talend.
|
|
Host
|
Adresse IP du serveur de base de données.
|
|
Port
|
Numéro du port d'écoute du serveur.
|
|
Database
|
Saisissez dans ce champ le nom de la base de données.
|
|
Username
|
Informations d'authentification de l'utilisateur de base de
données.
|
Authentication
|
Use kerberos authentication
|
Si vous accédez à un système Impala s'exécutant avec la sécurité Kerberos, cochez la case et
saisissez le Principal Kerberos de ce système Impala.
Cette case est disponible ou indisponible selon la distribution d'Hadoop à laquelle vous
vous connectez.
|
Advanced settings
|
tStatCatcher Statistics
|
Cochez cette case pour collecter les données de log au niveau du
composant.
|
Global Variables
|
ERROR_MESSAGE : message d'erreur généré par le composant
lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne
uniquement si la case Die on error est décochée, si le
composant a cette option.
Une variable Flow fonctionne durant l'exécution d'un
composant. Une variable After fonctionne après l'exécution
d'un composant.
Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les
touches Ctrl+Espace pour accéder à la liste des variables.
A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.
Pour plus d'informations concernant les variables, consultez le Guide utilisateur du
Studio Talend.
|
Utilisation
|
Ce composant s'utilise avec d'autres composants Impala, notamment le tImpalaClose.
|
Prérequis
|
La distribution Hadoop doit être correctement installée afin de garantir les interactions
avec le Studio Talend. La liste suivante présente des informations d'exemple
relatives à MapR.
Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR
dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les
librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par
exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus
d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr
(en anglais). Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur
suivante : no MapRClient in java.library.path . Configurez l'argument -Djava.library.path , par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences]. Cet argument fournit au studio le chemin d'accès à la
bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription
d'utiliser entièrement l'aperçu des données (Data
viewer) afin de visualiser localement dans le studio les données
stockées dans MapR. Pour plus d'informations concernant la configuration de cet
argument, consultez la section expliquant comment visualiser les données dans le
Guide de prise en main de Talend Big Data.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le
manuel correspondant à la distribution Hadoop que vous utilisez.
|
Limitation
|
n/a
|