Centraliser des métadonnées HCatalog

Talend Data Fabric Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Data Fabric
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Si vous utilisez régulièrement une table d'une base de données de HCatalog, une couche de gestion des tables et du stockage pour Hadoop, vous pouvez centraliser les informations de connexion à HCatalog, ainsi que les détails du schéma de la table, dans le dossier Metadata de la vue Repository.

Prérequis :

  • Lancez la distribution HortonWorks Hadoop que vous souhaitez utiliser et assurez-vous que vous disposez des permissions d'accès nécessaires pour cette distribution et la base de données HCatalog.

  • Créez la connexion vers cette distribution Hadoop depuis le nœud Hadoop cluster. Pour plus d'informations, consultez Centraliser une connexion Hadoop.

Créer une connexion à HCatalog

  1. Développez le nœud Hadoop cluster situé sous le nœud Metadata dans la vue Repository. Cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create HCatalog dans le menu contextuel.

  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].

  3. Cliquez sur Next pour passer à l'étape suivante et renseigner les informations de connexion à la base de données Hive. Parmi ces informations, le champ Host name est automatiquement renseigné avec la valeur héritée de la connexion Hadoop que vous avez sélectionnée dans les étapes précédentes. Le champ Port de Templeton et le champ Database utilisent des valeurs par défaut.

    Cette base de données est une base de données Hive et Templeton est utilisé en tant qu'API Web de type REST par HCatalog afin d'émettre des commandes. Pour plus d'informations sur Templeton, consultez la documentation d'Apache sur la page http://people.apache.org/~thejas/templeton_doc_latest/index.html (en anglais).

    Les champs Principal et Realm ne sont affichés que si la connexion Hadoop utilisée autorise la sécurité Kerberos. Ce sont les propriétés requises par Kerberos pour authentifier le client HCatalog et le serveur HCatalog entre eux.

    Note

    Afin que le nom d'hôte du serveur Hadoop soit reconnu par les ordinateurs client et hôte, vous devez établir une entrée de mapping de l'adresse IP et du nom d'hôte pour ce nom d'hôte dans le fichier hosts des ordinateurs client et hôte. Par exemple, si le nom d'hôte du serveur Hadoop est talend-all-hdp et que son adresse IP est 192.168.x.x, l'entrée de mapping est 192.168.x.x talend-all-hdp. Pour un système Windows, vous devez ajouter l'entrée dans le fichier C:\WINDOWS\system32\drivers\etc\hosts (si Windows est installé sur le lecteur C). Pour un système Linux, vous devez modifier l'entrée du fichier /etc/hosts.

  4. Si nécessaire, remplacez ces valeurs par défaut par celles du port et de la base de données utilisées votre HCatalog.

  5. Si besoin, renseignez les propriétés Principal et Realm.

  6. Si vous devez utiliser une configuration personnalisée pour la distribution d'Hadoop ou HCatalog à utiliser, cliquez sur le bouton [...] à côté de Hadoop properties pour ouvrir la table des propriétés et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le studio pour son moteur Hadoop.

    Une table Parent Hadoop properties s'affiche au-dessus de la table des propriétés que vous modifiez. La table mère est en lecture seule et affiche les propriétés Hadoop ayant été définies dans l'assistant de la connexion Hadoop mère, sur laquelle se base la connexion à HCatalog.

    Pour plus d'informations concernant les propriétés de Hadoop, consultez la documentation de Apache Hadoop à l'adresse suivante : http://hadoop.apache.org/docs/current/ (en anglais) ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, cette page liste certaines propriétés Hadoop par défaut https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml (en anglais).

    Pour plus d'informations concernant les propriétés de HCatalog, consultez la documentation Apache HCatalog. Par exemple, la page suivante décrit certaines propriétés de configuration HCatalog : https://cwiki.apache.org/confluence/display/Hive/HCatalog+Configuration+Properties (en anglais).

    Pour tirer parti de cette table des propriétés, consultez Configuration des propriétés réutilisables de Hadoop.

  7. Cliquez sur le bouton Check afin de tester la connexion que vous venez de définir. Un message s'affiche indiquant si la connexion est établie.

  8. Cliquez sur Finish pour valider vos modifications.

    La nouvelle connexion HCatalog créée est disponible sous le nœud Hadoop cluster dans la vue Repository.

    Note

    Cette vue Repository peut varier suivant l'édition du studio que vous utilisez.

    Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :

    • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop courante, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

    • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion courante.

    Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

    Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres pour configurer une connexion.

  9. Cliquez-droit sur la nouvelle connexion et sélectionnez Retrieve schema dans la liste déroulante, afin de charger le schéma de la table souhaitée.

Récupérer le schéma d'une table

  1. Lorsque vous cliquez sur cliquez sur Retrieve Schema, un nouvel assistant s'ouvre dans lequel vous pouvez filtrer et afficher les différentes tables de HCatalog.

  2. Dans le champ Name filter, saisissez le nom de la (les) table(s) que vous recherchez.

    Vous pouvez également trouver et sélectionner directement la (les) table(s) de laquelle (desquelles) vous souhaitez récupérer le schéma.

    Chaque fois qu'un schéma est récupéré pour un fichier sélectionné, le statut Creation status du fichier devient Success.

  3. Cliquez sur Next pour ouvrir une nouvelle vue dans l'assistant, listant tous les schémas sélectionnés. Vous pouvez en sélectionner un pour afficher ses détails dans la zone Schema.

  4. Modifiez le schéma sélectionné, si nécessaire. Vous pouvez changer son nom ou personnaliser sa structure, dans la zone Schema.

    La barre d'outils vous permet d'ajouter, de supprimer ou de déplacer des colonnes dans le schéma.

    Pour écraser les modifications effectuées sur le schéma sélectionné et retrouver le schéma par défaut, cliquez sur Retrieve schema. Notez que cette opération écrase toutes les modifications personnalisées.

  5. Cliquez sur Finish pour terminer la création du schéma HCatalog. Tous les schémas récupérés s'affichent sous le nœud des connexions HCatalog correspondant, dans la vue Repository.

    Si vous devez modifier un schéma, cliquez-droit sur ce schéma, sous le nœud des connexions HCatalog dans le Repository et, dans le menu contextuel, sélectionnez Edit Schema pour ouvrir à nouveau l'assistant et effectuer les modifications.

    Note

    Si vous modifiez les schémas, assurez-vous que le type de données est bien défini dans le colonne Type.