
Avertissement
Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'une des solutions Big Data de Talend.
Famille du composant |
BigData/HCatalog | |
Fonction |
Ce composant lit des données directement de HDFS et écrit ces données dans une table établie gérée par HCatalog. | |
Objectif |
Le composant tHCatalogLoad fonctionne en standalone pour écrire des données dans une table établie gérée par HCatalog. | |
Basic settings |
Property type |
Peut être Built-in ou Repository. Built-in : Propriétés utilisées ponctuellement. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées. |
Version |
Distribution |
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Les options de la liste dépendent des composants que vous utilisez, Parmi ces options, les suivantes nécessitent une configuration spécifique.
Pour vous connecter à une distribution personnalisée, une fois l'option Custom sélectionnée, cliquez sur le bouton
|
HCatalog version |
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. En plus de l'évolution de Hadoop, veuillez noter les changements suivants :
| |
Templeton Configuration |
Templeton hostname |
Renseignez ce champ avec l'URL du service Web Templeton. NoteTempleton est une API de Service Web pour HCatalog. Elle a été renommée WwebHCat par la communauté Apache. Ce service permet d'accéder à HCatalog et aux éléments Hadoop relatifs, comme Pig. Pour plus d'informations concernant Templeton (WebHCat), consultez https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCat (en anglais). |
|
Templeton port |
Renseignez ce champ avec le port de l'URL du service Web Templeton. Par défaut, cette valeur est 50111. NoteTempleton est une API de Service Web pour HCatalog. Elle a été renommée WwebHCat par la communauté Apache. Ce service permet d'accéder à HCatalog et aux éléments Hadoop relatifs, comme Pig. Pour plus d'informations concernant Templeton (WebHCat), consultez https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCat (en anglais). |
|
Use kerberos authentication |
Si vous accédez au cluster Hadoop fonctionnant avec la sécurité de Kerberos, cochez cette case, puis saisissez le "principal name" de Kerberos pour le NameNode dans le champ affiché. Cela vous permet d'utiliser votre identifiant pour vous authentifier, en le comparant aux identifiants stockés dans Kerberos. Cette case est disponible ou indisponible selon la distribution d'Hadoop à laquelle vous vous connectez. |
Use a keytab to authenticate |
Cochez la case Use a keytab to authenticate pour vous connecter à un système Hadoop utilisant Kerberos à l'aide d'un fichier keytab. Un fichier keytab contient des paires de principaux Kerberos et de clés cryptées. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Notez que l'utilisateur qui exécute un Job utilisant un keytab n'est pas forcément celui désigné par le principal mais qu'il doit avoir le droit de lecture pour le fichier keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser. | |
HCatalog Configuration |
Database |
Saisissez le nom de la base de données dans laquelle écrire les données. Cette base de données doit exister. |
|
Table |
Saisissez le nom de la table dans laquelle écrire les données. Cette table doit exister. |
|
Partition |
Renseignez ce champ pour spécifier une ou plusieurs partition(s) pour l'opération de partition sur la table spécifiée. Lorsque vous spécifiez différentes partitions, utilisez une virgule pour séparer chaque groupe de deux partitions. Utilisez également des guillemets doubles afin d'entourer la chaîne de caractères de la partition. Si vous lisez une table non partitionnée, laissez ce champ vide.
NotePour plus d'informations concernant les partitions, consultez https://cwiki.apache.org/Hive/ (en anglais).
|
Username |
Renseignez ce champ avec le nom d'utilisateur de connexion à la base de données. | |
File location |
Saisissez le chemin absolu pointant vers l'emplacement HDFS d'où sont lues les données. | |
Advanced settings | Retrieve the HCatalog logs | Cochez cette case pour récupérer les fichiers de log générés durant les opérations HCatalog. |
HCatalog Configuration | Standard Output Folder |
Renseignez ce champ avec le chemin d'accès aux fichiers de log stockés. NoteCe champ est activé lorsque vous sélectionnez Retrieve the HCatalog logs. |
Error Output Folder |
Renseignez ce champ avec le chemin d'accès aux fichiers d'erreurs stockés. NoteCe champ est activé lorsque vous sélectionnez Retrieve the HCatalog logs. | |
tStatCatcher Statistics |
Cochez cette case pour collecter les données de log au niveau du Job aussi bien qu'au niveau des composants. | |
Global Variables |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend. | |
Utilisation |
Ce composant est généralement utilisé seul dans un sous-job à un composant. HCatalog est construit sur le métastore Hive afin de fournir une interface de lecture/écriture pour Pig et MapReduce, afin que ces systèmes puissent utiliser les métadonnées de Hive pour lire et écrire facilement des données dans HDFS. Pour plus d'informations, consultez la documentation Apache concernant HCatalog : https://cwiki.apache.org/confluence/display/Hive/HCatalog (en anglais). | |
Prérequis |
La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend. La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. | |
Log4j | Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend. Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais). | |
Limitation |
Lorsque la case Use kerberos authentication est cochée, le composant ne fonctionne pas avec la JVM IBM. |
Pour un scénario associé, consultez Scénario : Gestion de table HCatalog dans Hortonworks Data Platform.