Centraliser les métadonnées MapR-DB - 6.3

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Si vous utilisez régulièrement une table d'une base de données MapR-DB, vous pouvez centraliser les informations de connexion à MapR-DB et les informations du schéma de la table dans le dossier Metadata de la vue Repository.

Même si vous pouvez le faire depuis le nœud DB connection, utiliser le nœud Hadoop cluster est recommandé, afin d'utiliser au mieux les propriétés de la connexion centralisée pour une distribution MapR donnée.

Prérequis :

  • Lancez la distribution MapR à utiliser et assurez-vous que vous avez les bonnes autorisations d'accès à cette distribution et à sa base de données MapR-DB.

  • Créez la connexion à cette distribution MapR à partir du nœud du cluster Hadoop. Pour plus d'informations, consultez Centraliser une connexion Hadoop.

Créer une connexion à MapR-DB

  1. Développez le nœud Hadoop cluster sous Metadata, dans la vue Repository, cliquez-droit sur la connexion MapR à utiliser et sélectionnez Create MapRDB dans le menu contextuel.

  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion à créer, telles que le nom (Name), l'objectif (Purpose) et la Description. Le champ Status est un champ personnalisé que vous pouvez configurer dans File > Edit project properties.

  3. Cliquez sur Next pour passer à l'étape suivante, qui nécessite de renseigner les informations de connexion à MapR-DB. Parmi ces informations, les champs (DB Type), Hadoop cluster, Distribution, MapR-DB version et Server sont automatiquement prérenseignés par les propriétés héritées de la connexion MapR sélectionnée dans les étapes précédentes.

    Notez que, si vous sélectionnez None dans la liste Hadoop cluster, vous passez en mode manuel. Dans ce mode, les propriétés héritées ne sont pas prises en compte. Vous devez configurer manuellement les propriétés. La connexion créée s'affiche sous le nœud Db connection uniquement.

  4. Dans le champ Port, saisissez le numéro du port de la base de données MapR-DB à laquelle vous connecter. Le numéro par défaut est 5181, qui est le port des nœuds exécutant les services Zookeeper.

    Note

    Afin de rendre reconnaissable le nom de l'hôte du serveur MapR par les machines client et hôte, vous devez établir une entrée de mapping adresse IP/nom de l'hôte pour ce nom d'hôte, dans les fichiers hosts relatifs des ordinateurs client et hôte. Par exemple, le nom d'hôte du serveur MapR est myMapR et son adresse IP est 192.168.x.x. L'entrée de mapping est la suivante 192.168.x.x myMapR. Pour les systèmes Windows, vous devez ajouter l'entrée au fichier C:\WINDOWS\system32\drivers\etc\hosts (si Windows est installé sur votre disque C). Pour les systèmes sous Linux, vous devez ajouter l'entrée au fichier /etc/hosts.

  5. Dans le champ Column family, saisissez le nom de la famille de colonnes, si vous souhaitez filtrer les colonnes, puis cliquez sur le bouton Check afin de vérifier votre connexion

  6. Si la base de données à utiliser s'exécute avec la sécurité Kerberos, cochez la case User Kerberos authentication, puis saisissez les noms des Principaux dans les champs qui s'affichent. Vous devriez trouver l'information dans le fichier hbase-site.xml du cluster MapR à utiliser.

    Si vous devez utiliser un fichier keytab pour vous authentifier, cochez la case Use a keytab to authenticate. Un fichier keytab contient des paires de Principaux Kerberos et de clés cryptées. Vous devez saisir le Principal à utiliser dans le champ Principal et, dans le champ Keytab, parcourez votre système jusqu'au fichier keytab à utiliser.

    Notez que l'utilisateur exécutant un Job contenant un keytab n'est pas nécessairement celui désigné par un Principal, mais qu'il doit posséder les autorisations en lecture sur le fichier utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter un Job est user1 et le Principal à utiliser est guest. Dans cette situation, assurez-vous que l'utilisateur user1 a le droit de lire le fichier keytab à utiliser.

  7. Si le cluster MapR à utiliser est sécurisé par un mécanisme d'authentification par ticket MapR, cochez la case Force MapR Ticket authentication, afin de paramétrer la sécurité associée.

    1. Cochez la case Force MapR ticket authentication pour afficher les paramètres à configurer.

    2. Dans le champ Username, saisissez l'utilisateur à authentifier et, dans le champ Password, spécifiez le mot de passe utilisé par cet utilisateur.

      Un ticket de sécurité MapR est généré pour cet utilisateur par MapR et est stocké dans la machine où s'exécute le Job que vous configurez.

    3. Si le champ Group est disponible dans cet onglet, vous devez saisir le nom du groupe auquel l'utilisateur à authentifier appartient.

    4. Dans le champ Cluster name, saisissez le nom du cluster MapR auquel vous souhaitez cette utilisateur.

      Ce nom de cluster se trouve dans le fichier mapr-clusters.conf situé dans le répertoire /opt/mapr/conf du cluster.

    5. Dans le champ Ticket duration, saisissez la durée (en secondes) durant laquelle un ticket est valide.

  8. Si vous devez utiliser une configuration personnalisée pour la distribution MapR-DB à utiliser, cliquez sur le bouton [...] à côté de Hadoop properties, pour ouvrir la table des propriétés et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, ces modifications vont écraser les propriétés par défaut correspondantes utilisées par le Studio pour son moteur Hadoop.

    Notez qu'une table Parent Hadoop properties s'affiche au-dessus de la table que vous modifiez. Cette table parent est en lecture seule et liste les propriétés MapR définies dans l'assistant de la connexion MapR parent sur laquelle se base la connexion MapR-DB courante.

    Pour plus d'informations concernant les propriétés de MapR, consultez la documentation de MapR ou une documentation plus générale d'Apache Hadoop.

    Comme HBase et MapR-DB sont étroitement liées, pour plus d'informations concernant les propriétés de MapR-DB, consultez la documentation Apache pour HBase. Par exemple, la page suivante décrit quelques propriétés de configuration HBase : http://hbase.apache.org/book.html#_configuration_files (en anglais).

    Pour plus d'informations concernant cette table de propriétés, consultez Configuration des propriétés réutilisables de Hadoop.

  9. Cliquez sur Finish afin de valider les modifications.

    La nouvelle connexion MapR s'affiche sous le nœud Hadoop de la vue Repository. De plus, comme une connexion à MapR-DB est une connexion à une base de données, celle-ci s'affiche également sous le nœud Db connections.

Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :

  • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop courante, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

  • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion courante.

Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres pour configurer une connexion.

Récupérer le schéma d'une table

Le moyen de récupérer un schéma d'une table MapR-DB est le même que celui pour récupérer un schéma d'une table HBase. Pour plus d'informations concernant la récupération d'un schéma HBase, consultez Récupérer le schéma d'une table.