Créer une connexion à Hive - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Procédure

  1. Développez le nœud Hadoop cluster situé sous le nœud Metadata dans la vue Repository. Cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create Hive dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].
  3. Cliquez sur Next pour passer à l'étape suivante et renseigner les informations de connexion à la base de données Hive. Parmi ces informations, les champs DB Type, Hadoop cluster, Distribution, Version, Server, NameNode URL et JobTracker URL sont automatiquement renseignés avec les propriétés héritées de la connexion Hadoop que vous avez sélectionnée dans les étapes précédentes.
    Notez que si vous choisissez None dans la liste Hadoop cluster, vous basculez dans un mode manuel dans lequel les données héritées sont abandonnées. Vous devez donc configurer chaque propriété vous-même. La connexion créée apparaît sous le nœud Db connection uniquement.
    Les propriétés à définir peuvent varier suivant la distribution Hadoop utilisée.
  4. Dans la zone Version info, sélectionnez le modèle de la base de données de Hive auquel vous souhaitez vous connecter.
  5. Remplissez les champs qui s'affichent en fonction du modèle sélectionné.
    Lorsque vous laissez le champ Database vide, sélectionnez le modèle Standalone pour autoriser la connexion à la base de données Hive default uniquement.
  6. Si vous accédez à une distribution de Hadoop fonctionnant avec la sécurité Kerberos, cochez la case Use Kerberos authentication. Puis saisissez le nom du Principal Kerberos dans le champ Hive principal.
    Si vous devez utiliser un fichier Keytab pour vous connecter, cochez la case Use a keytab to authenticate, saisissez le Principal à utiliser, dans le champ Principal, puis, dans le champ Keytab, parcourez votre système jusqu'au fichier Keytab à utiliser.

    Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. L'utilisateur exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter un Job est user1 et le Principal à utiliser est guest. Ici, assurez-vous que user1 a le droit de lire le fichier Keytab à utiliser.

  7. Dans le champ Hive metastore port, saisissez le numéro du port d'écoute du Metastore du système Hive à utiliser.
    Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,).
  8. Si vous utilisez une distribution qui supporte Tez mais qui n'est pas officiellement supportée par Talend, sélectionnez Tez comme framework de vos Jobs dans la liste Execution engine.
    Lorsque vous réutilisez cette connexion dans un composant Hive, vous devez configurer l'accès aux bibliothèques de Tez via la vue Advanced settings du composant.
  9. Si vous devez utiliser une configuration personnalisée pour la distribution d'Hadoop ou de Hive à utiliser, cliquez sur le bouton [...] à côté du champ Hadoop properties ou Hive Properties, pour ouvrir la table des propriétés correspondante et ajouter une ou des propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le Studio pour son moteur Hadoop.
    Pour plus d'informations concernant les propriétés Hadoop, consultez la documentation Apache Hadoop à l'adresse suivante http://hadoop.apache.org/docs/current/ (en anglais), ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, la page suivante liste certaines des propriétés Hadoop par défaut : https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml (en anglais).
    Pour plus d'informations concernant les propriétés de Hive, consultez la documentation de Apache Hive. Par exemple, la page suivante décrit certaines propriétés de configuration de Hive : https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties.
    Pour tirer parti de cette table des propriétés, consultez Configurer les propriétés réutilisables de Hadoop.
  10. Cliquez sur le bouton Check afin de vérifier que votre connexion est établie.
  11. Si nécessaire également, renseignez les propriétés de base de données dans la zone Database Properties.
  12. Cliquez sur Finish pour valider vos modifications et fermer l'assistant.
    La nouvelle connexion spécifiée à la base de données Hive s'affiche sous le nœud DB Connections de la vue Repository. Cette connexion contient quatre sous-dossiers parmi lesquels Table schema peut regrouper tous les schémas relatifs à cette connexion.
    Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :
    • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop actuelle, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

    • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion actuelle.

    Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

    Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres de contexte pour configurer une connexion.

  13. Cliquez-droit sur la connexion Hive que vous avez créée et sélectionnez Retrieve Schema pour extraire tous les schémas de la base de données Hive définie.