Utilisation de Hive sur un cluster Amazon EMR - 7.2

author
Frédérique Martin Sainte-Agathe
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Amazon EMR
Création et développement > Systèmes tiers > Composants Database > Composants Hive
Gouvernance de données > Systèmes tiers > Composants Database > Composants Hive
Qualité et préparation de données > Systèmes tiers > Composants Database > Composants Hive
EnrichPlatform
Studio Talend

Utiliser Hive sur un cluster Amazon EMR

Cette section explique comment travailler avec Hive sur un cluster Amazon EMR.

Cet exemple utilise les produits suivants sous licence fournis par Amazon :

  • Amazon EC2
  • Amazon EMR

    Pour plus d'informations relatives au lancement d'un cluster Amazon EMR dans le Studio Talend, consultez Amazon EMR - Prise en main.

Créer une métadonnée de connexion à Hive

Cette section explique comment définir une métadonnée réutilisable pour des connexions à une infrastructure Hive, hébergée par votre cluster Amazon EMR.

Avant de commencer

Un cluster Amazon EMR 4.0.0 est déjà lancé et vous avez configuré la métadonnée du cluster dans le référentiel Talend.

Procédure

  1. Depuis le Repository, cliquez-droit sur la métadonnée de votre cluster et cliquez sur Create Hive.
  2. Dans le champ Login, recherchez hadoop et dans le champ Server, recherchez le DNS de votre nœud maître.
  3. Définissez le Port à 10000 :
  4. Cliquez sur Check afin de vérifier la connexion à Hive.

Créer une table Hive

Avant de commencer

Un fichier CustomersData a déjà été écrit dans HDFS et va être converti en table Hive.

Dans l'exemple suivant, nous utilisons l'assistant de création de tables Hive.

Procédure

  1. Passez à la perspective Profiling.
  2. Depuis le DQ Repository, cliquez-droit sur la métadonnée de votre connexion HDFS et cliquez sur Create Hive Table.
  3. Dans le navigateur, sélectionnez le dossier contenant le fichier à convertir en table Hive.
  4. Attendez jusqu'à ce que l'état de création passe à Success. Cliquez sur Next.
  5. Mettez à jour la table Name and Schema, en fonction de vos besoins.
    Dans cet exemple, la table est nommée CustomersTable et la connexion à Hive existante est utilisée.
  6. Cliquez sur Finish pour créer la table Hive.
    Votre table est créée et apparaît dans le DQ Repository sous Metadata > DBConnections > HiveConnection > default :

Effectuer l'analyse d'une table Hive

Avant de commencer

Vous pouvez utiliser les capacités de calcul de votre cluster pour effectuer des analyses sur votre table Hive.

Procédure

Dans la perspective Profiling, cliquez-droit sur une table Hive puis sélectionnez l'analyse que vous souhaitez effectuer sur votre table Hive :

Chaque analyse est envoyée à votre cluster sous forme de requête Hive QL et est exécutée comme un Job MapReduce.

Les résultats de l'analyse s'affichent dans le Studio Talend sous forme de graphiques ou de tables.

Pour plus d'informations relatives aux autres utilisations des tables, consultez l'article Work with Amazon Relational Database Service (RDS).