Utiliser un fichier de configuration Hive spécifique à Spark pour résoudre le problème d'utilisation d'un moteur Tez avec Hive pour des Jobs Spark dans une distribution Hortonworks - 6.4

Problème lors de l'utilisation d'un moteur Tez avec Hive, dans une distribution Hortonworks, dans des Jobs Spark

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Hortonworks
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming
EnrichPlatform
Studio Talend

Hortonworks embarque un fichier spécifique à Spark hive-site.xml pour résoudre ce problème de moteur Tez avec Hive. Vous pouvez utiliser ce fichier afin de définir la connexion à votre cluster Hortonworks dans le Studio.

Ce fichier est stocké dans le dossier de configuration Spark de votre cluster Hortonworks : /etc/spark/conf.

Procédure

  1. Récupérez ce fichier de configuration Hive spécifique à Spark de l'administrateur de votre cluster.
  2. Téléchargez les fichiers de configuration de votre cluster, par exemple, à l'aide d'Ambari.
  3. Parmi ces fichiers, remplacez le fichier /etc/hive/conf/hive-site.xml par ce fichier spécifique à Spark /etc/spark/conf/hive-site.xml.
  4. Définissez la connexion à Hadoop pour votre cluster Hortonworks, dans le Repository, si ce n'est pas encore fait.

    Pour un exemple de définition de ce type de connexion, consultez Create the cluster metadata - Hortonworks 2.4 (en anglais).

  5. Cliquez-droit sur la connexion et, dans le menu contextuel, sélectionnez Edit Hadoop cluster pour ouvrir l'assistant Hadoop cluster connection.
  6. Cliquez sur Next pour ouvrir la seconde étape de l'assistant. Cochez la case Use custom Hadoop configurations.
  7. Cliquez sur le bouton [...] à côté de Use custom Hadoop configurations pour ouvrir l'assistant Hadoop configuration import wizard.
  8. Sélectionnez la version d'Hortonworks que vous utilisez et sélectionnez le bouton radio Import configuration from local files.
  9. Cliquez sur Next et cliquez sur Browse... pour trouver les fichiers de configuration Hive parmi lesquels vous avez placé le fichier spécifique à Spark hive-site.xml au cours d'une précédente étape.
  10. Cliquez sur Finish pour fermer l'assistant et terminer l'import, afin de retourner à l'assistant Hadoop cluster connection.
  11. Cliquez sur Finish pour valider les modifications et, dans la boîte de dialogue, cliquez sur Yes pour accepter la propagation. L'assistant se ferme et le fichier de configuration Hive spécifique à Spark sera utilisé avec cette connexion à Hadoop.

    Cette nouvelle configuration est prise en compte uniquement pour les Jobs utilisant cette connexion.

    Pour un exemple relatif à l'utilisation de ce type de connexion, consultez Write Data to HDFS - Hortonworks (en anglais).