Préparer les tables Hive - 7.0

ELT Hive

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants ELT > Composants ELT Hive
Gouvernance de données > Systèmes tiers > Composants ELT > Composants ELT Hive
Qualité et préparation de données > Systèmes tiers > Composants ELT > Composants ELT Hive
EnrichPlatform
Studio Talend

Procédure

  1. Créez la table Hive dans laquelle vous souhaitez écrire des données. Dans ce scénario, cette table est nommée agg_result et vous pouvez la créer à l'aide de l'instruction suivante dans le tHiveRow : create table agg_result (id int, name string, address string, sum1 string, postal string, state string, capital string, mostpopulouscity string) partitioned by (type string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/agg_result'
    Dans cette instruction, '/user/ychen/hive/table/agg_result' est le répertoire utilisé pour stocker la table créée dans HDFS. Vous devez le remplacer par le répertoire à utiliser dans votre environnement.
    Pour plus d'informations concernant le tHiveRow, consultez tHiveRow.
  2. Créez deux tables d'entrée Hive contenant les colonnes sur lesquelles vous souhaitez effectuer une jointure et que vous souhaitez agréger dans la table Hive de sortie, agg_result. Les instructions à utiliser sont :create table customer (id int, name string, address string, idState int, id2 int, regTime string, registerTime string, sum1 string, sum2 string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/customer' et create table state_city (id int, postal string, state string, capital int, mostpopulouscity string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/state_city'
  3. Utilisez le tHiveRow pour charger les données dans les deux tables d'entrée, customer et state_city. Les instructions à utiliser sont : "LOAD DATA LOCAL INPATH 'C:/tmp/customer.csv' OVERWRITE INTO TABLE customer" et "LOAD DATA LOCAL INPATH 'C:/tmp/State_City.csv' OVERWRITE INTO TABLE state_city"
    Les deux fichiers, customer.csv et State_City.csv, sont deux fichiers locaux créés pour ce scénario. Vous devez créer vos fichiers afin de fournir les données aux tables Hive d'entrée. Le schéma des données de chaque fichier doit être identique à la table correspondante.
    Vous pouvez utiliser le tRowGenerator et le tFileOutputDelimited pour créer facilement les deux fichiers. Pour plus d'informations concernant ces composants, consultez tRowGenerator et tFileOutputDelimited.

    Pour plus d'informations concernant le langage de requêtes Hive, consultez https://cwiki.apache.org/confluence/display/Hive/LanguageManual (en anglais).