Utilisation de Hive dans un cluster Amazon EMR - 7.0

author
Frédérique Martin Sainte-Agathe
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Amazon EMR
Création et développement > Systèmes tiers > Composants Database > Composants Hive
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
Gouvernance de données > Systèmes tiers > Composants Database > Composants Hive
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
Qualité et préparation de données > Systèmes tiers > Composants Database > Composants Hive
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon EMR
EnrichPlatform
Studio Talend

Utilisation de Hive dans un cluster Amazon EMR

Cet article explique comment utiliser Hive dans un cluster Amazon EMR.

Cet exemple utilise ces produits sous licence fournis par Amazon :

  • Amazon EC2
  • Amazon EMR

    Pour plus d'informations concernant le lancement d'un cluster Amazon EMR dans le Studio Talend, consultez Amazon EMR - Prise en main.

Création d'une métadonnée de connexion Hive

Cette section explique comment définir une métadonnée réutilisable pour des connexions à une infrastructure Hive, hébergée par votre cluster Amazon EMR.

Avant de commencer

Vous devez avoir lancé un cluster Amazon EMR 4.0.0 et avoir configuré la métadonnée du cluster dans le référentiel Talend.

Procédure

  1. Dans le Repository, cliquez-droit sur votre métadonnée de cluster et cliquez sur Create Hive.
  2. Dans le champ Login, vous devez trouver hadoop et dans le champ Server, vous devez trouver le DNS de votre nœud maître.
  3. Définissez le Port à 10000 :
  4. Cliquez sur Check pour vérifier la connexion à Hive.

Création d'une table Hive

Avant de commencer

Un fichier nommé CustomersData doit avoir été écrit dans HDFS et devra être converti en table Hive.

Dans l'exemple suivant, nous allons utiliser l'assistant de création de table Hive.

Procédure

  1. Passez à la perspective Profiling.
  2. Dans DQ Repository, cliquez-droit sur votre métadonnée de connexion HDFS et cliquez sur Create Hive Table.
  3. Dans le moteur de recherche, sélectionnez le dossier contenant votre fichier à convertir en table Hive :
  4. Attendez avant que l'état de création passe à Success. Cliquez sur Next.
  5. Mettez à jour la table Name and Schema, selon vos besoins.
    Dans cet exemple, la table est nommée CustomersTable et la connexion Hive existante sera utilisée.
  6. Cliquez sur Finish pour créer la table Hive.
    Votre table est créée et s'affiche dans le DQ Repository sous Metadata > DBConnections > HiveConnection > default :

Lancement d'une analyse d'une table Hive

Avant de commencer

Vous pouvez utiliser les capacités de calcul de votre cluster pour effectuer des analyses sur votre table Hive.

Procédure

Dans la perspective Profiling, cliquez-droit sur une table Hive et ensuite, sélectionnez l'analyse que vous souhaitez effectuer sur votre table Hive :

Chaque analyse est envoyée comme une requête Hive QL à votre cluster et est exécutée comme un Job MapReduce.

Les résultats sont affichés dans le Studio Talend sous la forme de graphiques ou de tables.

Pour plus d'informations relatives aux autres utilisations des tables, consultez l'article Work with Amazon Relational Database Service (RDS).