Créer une connexion à Hive - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Procédure

  1. Développez le nœud Hadoop cluster situé sous le nœud Metadata dans la vue Repository. Cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create Hive dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].
  3. Cliquez sur Next pour passer à l'étape suivante et renseigner les informations de connexion à la base de données Hive. Parmi ces informations, les champs DB Type, Hadoop cluster, Distribution, Version, Server, NameNode URL et JobTracker URL sont automatiquement renseignés avec les propriétés héritées de la connexion Hadoop que vous avez sélectionnée dans les étapes précédentes.
    Notez que si vous choisissez None dans la liste Hadoop cluster, vous basculez dans un mode manuel dans lequel les données héritées sont abandonnées. Vous devez donc configurer chaque propriété vous-même. La connexion créée apparaît sous le nœud Db connection uniquement.
    Les propriétés à définir peuvent varier suivant la distribution Hadoop utilisée.
  4. Dans la zone Version info, sélectionnez le modèle de la base de données de Hive auquel vous souhaitez vous connecter. Pour certaines distributions Hadoop, les deux modèles Standalone et Embedded sont disponibles à l'utilisation. Pour d'autres, vous pouvez accéder uniquement à l'un des modèles.
    Selon la distribution sélectionnée, vous pouvez sélectionner Hive Server2 dans la liste Hive Server version, supportant mieux les connexions simultanées de différents clients que Hive Server1. Pour plus d'informations concernant Hive Server2, consultez la page https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2 (en anglais).
  5. Les champs affichés varient selon le modèle sélectionné.
    Lorsque vous laissez le champ Database vide, la sélection du modèle Embedded permet au Studio de se connecter automatiquement à toutes les bases de données existantes dans Hive. À l'inverse, la sélection du modèle Standalone permet de se connecter uniquement à la base de données default de Hive.
  6. Si vous accédez à une distribution de Hadoop fonctionnant avec la sécurité Kerberos, cochez la case Use Kerberos authentication. Renseignez les champs selon les configurations du serveur Hive :
    • Saisissez le nom du Principal Kerberos dans le champ Hive principal,

    • Saisissez l'URL de la base de données du Metastore dans le champ Metastore URL,

    • Cliquez sur le bouton [...] à côté du champ Driver jar et parcourez votre système jusqu'au fichier Jar du pilote de la base de données du Metastore,

    • Cliquez sur le bouton [...] à côté du champ Driver class et sélectionnez la classe, puis

    • Saisissez votre identifiant et votre mot de passe dans les champs Username et Password respectivement.

    Si vous devez utiliser un fichier Keytab pour vous connecter, cochez la case Use a keytab to authenticate, saisissez le Principal à utiliser, dans le champ Principal, puis, dans le champ Keytab, parcourez votre système jusqu'au fichier Keytab à utiliser.
    Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. L'utilisateur exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser.
  7. Si vous utilisez l'une des distributions suivantes, sélectionnez Tez comme framework de vos Jobs dans la liste Execution engine.
    • Hortonworks : V2.1 et V2.2.

    • MapR : V4.0.1.

    • Personnalisée (Custom) : cette option vous permet de vous connecter à une distribution supportant Tez mais n'étant pas elle-même officiellement supportée par Talend.

    Lorsque vous réutilisez cette connexion dans un composant Hive, vous devez configurer l'accès aux bibliothèques de Tez via la vue Advanced settings du composant. Pour plus d'informations, consultez la documentation Hive, notamment le tHiveConnection .
  8. Si vous devez utiliser une configuration personnalisée pour la distribution d'Hadoop ou de Hive à utiliser, cliquez sur le bouton [...] à côté du champ Hadoop properties ou Hive Properties, pour ouvrir la table des propriétés correspondante et ajouter une ou des propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le studio pour son moteur Hadoop.
    Pour plus d'informations concernant les propriétés Hadoop, consultez la documentation Apache Hadoop à l'adresse suivante http://hadoop.apache.org/docs/current/ (en anglais), ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, la page suivante liste certaines des propriétés Hadoop par défaut : https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml (en anglais).
    Pour plus d'informations concernant les propriétés de Hive, consultez la documentation de Apache Hive. Par exemple, la page suivante décrit certaines propriétés de configuration de Hive : https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties.
    Pour tirer parti de cette table des propriétés, consultez Configuration des propriétés réutilisables de Hadoop.
  9. Cliquez sur le bouton Check afin de vérifier que votre connexion est établie.
  10. Si nécessaire également, renseignez les propriétés de base de données dans la zone Database Properties.
  11. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.
    La nouvelle connexion spécifiée à la base de données Hive s'affiche sous le nœud DB Connections de la vue Repository. Cette connexion contient quatre sous-dossiers parmi lesquels Table schema peut regrouper tous les schémas relatifs à cette connexion.
    Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :
    • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop courante, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

    • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion courante.

    Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

    Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres pour configurer une connexion.

  12. Cliquez-droit sur la connexion Hive que vous avez créée et sélectionnez Retrieve Schema pour extraire tous les schémas de la base de données Hive définie.