Centraliser les métadonnées MapR-DB - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

Version
6.5
Language
Français (France)
Product
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Qualité et préparation de données

Si vous utilisez régulièrement une table d'une base de données MapR-DB, vous pouvez centraliser les informations de connexion à MapR-DB et les informations du schéma de la table dans le dossier Metadata de la vue Repository.

Même si vous pouvez le faire depuis le nœud DB connection, utiliser le nœud Hadoop cluster est recommandé, afin d'utiliser au mieux les propriétés de la connexion centralisée pour une distribution MapR donnée.

Prérequis :

  • Lancez la distribution MapR à utiliser et assurez-vous que vous avez les bonnes autorisations d'accès à cette distribution et à sa base de données MapR-DB.

  • Créez la connexion à cette distribution MapR à partir du nœud du cluster Hadoop. Pour plus d'informations, consultez Centraliser une connexion Hadoop.

Créer une connexion à MapR-DB

  1. Développez le nœud Hadoop cluster sous Metadata, dans la vue Repository, cliquez-droit sur la connexion MapR à utiliser et sélectionnez Create MapRDB dans le menu contextuel.

  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].

  3. Cliquez sur Next pour passer à l'étape suivante, qui nécessite de renseigner les informations de connexion à MapR-DB. Parmi ces informations, les champs DB Type, Hadoop cluster, Distribution, MapR-DB version et Server sont automatiquement prérenseignés par les propriétés héritées de la connexion MapR sélectionnée dans les étapes précédentes.

    Notez que si vous choisissez None dans la liste Hadoop cluster, vous basculez dans un mode manuel dans lequel les données héritées sont abandonnées. Vous devez donc configurer chaque propriété vous-même. La connexion créée apparaît sous le nœud Db connection uniquement.

  4. Dans le champ Port, saisissez le numéro du port de la base de données MapR-DB à laquelle vous connecter. Le numéro par défaut est 5181, qui est le port des nœuds exécutant les services Zookeeper.

    Note

    Afin de rendre reconnaissable le nom de l'hôte du serveur MapR par les machines client et hôte, vous devez établir une entrée de mapping adresse IP/nom de l'hôte pour ce nom d'hôte, dans les fichiers hosts relatifs des ordinateurs client et hôte. Par exemple, le nom d'hôte du serveur MapR est myMapR et son adresse IP est 192.168.x.x. L'entrée de mapping est la suivante 192.168.x.x myMapR. Pour un système Windows, vous devez ajouter l'entrée dans le fichier C:\WINDOWS\system32\drivers\etc\hosts (en supposant que Windows est installé sur le disque C). Pour un système Linux, vous devez modifier l'entrée du fichier /etc/hosts.

  5. Dans le champ Column family, saisissez, si vous souhaitez filtrer les colonnes, la famille de colonnes puis cliquez sur Check afin de vérifier votre connexion.

  6. Si la base de données à utiliser s'exécute avec la sécurité Kerberos, cochez la case User Kerberos authentication, puis saisissez les noms des Principaux dans les champs qui s'affichent. Vous devriez trouver l'information dans le fichier hbase-site.xml du cluster MapR à utiliser.

    Si vous devez utiliser un fichier Keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le Principal à utiliser dans le champ Principal. Dans le champ Keytab, parcourez votre système jusqu'au fichier Keytab à utiliser.

    l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser.

  7. Si le cluster MapR à utiliser est sécurisé par un mécanisme d'authentification par ticket MapR, cochez la case Force MapR Ticket authentication, afin de paramétrer la sécurité associée.

    1. Cochez la case Force MapR ticket authentication pour afficher les paramètres associés à définir.

    2. Dans le champ Username, saisissez l'utilisateur ou l'utilisatrice à authentifier et, dans le champ Password, spécifiez le mot de passe utilisé par cet utilisateur ou cette utilisatrice.

      Un ticket de sécurité MapR est généré pour cet utilisateur ou cette utilisatrice par MapR et stocké dans la machine où est exécuté le Job que vous configurez.

    3. Si le champ Group est disponible dans cet onglet, vous devez saisir le nom du groupe auquel l'utilisateur ou l'utilisatrice à authentifier appartient.

    4. Dans le champ Cluster name, saisissez le nom du cluster MapR auquel vous souhaitez que l'utilisateur ou l'utilisatrice se connecte.

      Ce nom de cluster se trouve dans le fichier mapr-clusters.conf situé dans le répertoire /opt/mapr/conf du cluster.

    5. Dans le champ Ticket duration, saisissez la période de temps (en secondes) durant laquelle le ticket est valide.

  8. Si vous devez utiliser une configuration personnalisée pour la distribution MapR-DB à utiliser, cliquez sur le bouton [...] à côté de Hadoop properties, pour ouvrir la table des propriétés et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le Studio pour son moteur Hadoop.

    Une table Parent Hadoop properties s'affiche au-dessus de la table des propriétés que vous modifiez. Cette table parent est en lecture seule et liste les propriétés MapR définies dans l'assistant de la connexion MapR parent sur laquelle se base la connexion MapR-DB courante.

    Pour plus d'informations concernant les propriétés de MapR, consultez la documentation de MapR ou une documentation plus générale d'Apache Hadoop.

    Comme HBase et MapR-DB sont étroitement liées, pour plus d'informations concernant les propriétés de MapR-DB, consultez la documentation Apache pour HBase. Par exemple, la page suivante liste certaines propriétés de configuration de HBase par défaut http://hbase.apache.org/book.html#_configuration_files.

    Pour tirer parti de cette table des propriétés, consultez Configurer les propriétés réutilisables de Hadoop.

  9. Cliquez sur Finish pour valider les modifications.

    La nouvelle connexion MapR s'affiche sous le nœud Hadoop de la vue Repository. De plus, comme une connexion à MapR-DB est une connexion à une base de données, celle-ci s'affiche également sous le nœud Db connections.

Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :

  • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop actuelle, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

  • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion actuelle.

Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres de contexte pour configurer une connexion.

Récupérer le schéma d'une table

Le moyen de récupérer un schéma d'une table MapR-DB est le même que celui pour récupérer un schéma d'une table HBase. Pour plus d'informations concernant la récupération d'un schéma HBase, consultez Récupérer le schéma d'une table.