Utiliser le filtre sur les propriétés Hadoop du Studio pour résoudre le problème de moteur Tez avec Hive pour les Jobs Spark dans une distribution Hortonworks - 6.4

Problème lors de l'utilisation d'un moteur Tez avec Hive, dans une distribution Hortonworks, dans des Jobs Spark

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Distributions Hadoop > Hortonworks
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Batch
Création et développement > Création de Jobs > Frameworks de Jobs > Spark Streaming
EnrichPlatform
Studio Talend
Si vous devez utiliser le fichier original hive-site.xml de votre cluster Hortonworks ou si vous n'avez pas accès aux fichiers de configuration spécifiques à Spark, vous pouvez utiliser le filtre des propriétés fourni dans l'assistant de métadonnées Hadoop dans le Studio pour régler ce problème.

Procédure

  1. Définissez la connexion Hadoop vers votre cluster Hortonworks dans le Repository, si ce n'est pas déjà fait.

    Pour un exemple de définition de ce type de connexion, consultez Create the cluster metadata - Hortonworks 2.4 (en anglais).

  2. Cliquez-droit sur cette connexion et, dans le menu contextuel, sélectionnez Edit Hadoop cluster pour ouvrir l'assistant Hadoop cluster connection.
  3. Cliquez sur Next pour ouvrir l'étape suivante et cochez la case Use custom Hadoop configurations.
  4. Cliquez sur le bouton [...] à côté de Use custom Hadoop configurations pour ouvrir l'assistant Hadoop configuration import wizard.
  5. Sélectionnez la version d'Hortonworks que vous utilisez, puis effectuez l'une des opérations suivantes :
    • Si votre distribution Hortonworks contient une installation d'Ambari, sélectionnez le bouton radio Retrieve configuration from Ambari or Cloudera et cliquez sur Next. Procédez ensuite comme suit :
      1. Dans l'assistant qui s'ouvre, saisissez vos identifiants Ambari dans les champs correspondants et cliquez sur Connect.

        Un nom de cluster est affiché dans la liste déroulante Discovered clusters.

      2. Dans la liste, sélectionnez votre cluster et cliquez sur Fetch afin de récupérer la configuration des services relatifs.

      3. Cliquez sur le bouton [...] à côté de Hadoop property filter pour ouvrir l'assistant.

    • Si votre distribution Hortonworks n'a pas d'installation d'Ambari, vous devez importer les fichiers de configuration Hive depuis un répertoire local. Cela signifie que vous devez contacter l'administrateur de votre cluster pour obtenir les fichiers de configuration Hive ou que vous devez télécharger ces fichiers vous-même.

      Une fois que vous avez les fichiers, procédez comme suit :

      1. Dans l'assistant Hadoop configuration import wizard, sélectionnez le bouton radio Import configuration from local files et cliquez sur Next.

      2. Cliquez sur Browse... pour trouver les fichiers de configuration Hive.

      3. Cliquez sur le bouton [...] à côté de Hadoop property filter pour ouvrir l'assistant.

  6. Cliquez sur le bouton [+] pour ajouter une ligne et saisissez hive.execution.engine dans cette ligne afin de retirer cette propriété de la liste.
  7. Cliquez sur OK pour valider cet ajout et retourner à l'assistant Hadoop configuration import wizard.
  8. Cliquez sur Finish pour fermer l'assistant d'import et terminer l'import afin de retourner à l'assistant Hadoop cluster connection.
  9. Cliquez sur Finish pour valider les modifications et, dans la boîte de dialogue qui s'ouvre, cliquez sur Yes pour accepter la propagation. L'assistant se ferme et le fichier de configuration Hive spécifique à Spark sera utilisé avec cette connexion à Hadoop.

    Cette nouvelle configuration est prise en compte uniquement pour les Jobs utilisant cette connexion.

    Pour un exemple d'utilisation de ce type de connexion, consultez Write Data to HDFS - Hortonworks (en anglais).