Propriétés du tHiveConfiguration pour Apache Spark Batch - 7.1

Hive

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Database > Composants Hive
Gouvernance de données > Systèmes tiers > Composants Database > Composants Hive
Qualité et préparation de données > Systèmes tiers > Composants Database > Composants Hive
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tHiveConfiguration s'exécutant dans le framework de Jobs Spark Batch.

Le composant tHiveConfiguration Spark Batch appartient à la famille Storage.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant souscription et dans Talend Data Fabric.

Basic settings

Distribution et Version

Sélectionnez la distribution Hadoop que vous utilisez pour Hive.

Notez que la version de Hive requise par Spark est 0.13+.

Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez.

Hive thrift metastore

Saisissez l'emplacement du Metastore du système Hive à utiliser en spécifiant le nom de son hôte (Host) et le numéro de son Port d'écoute. Si le Metastore HA a été défini pour ce système Hive, cochez la case Enable high availability et, dans le champ qui s'affiche, saisissez les URI des différents services distants du Metastore, séparées par une virgule(,).

Use Kerberos authentication

Si vous accédez au Metastore de Hive avec une sécurité Kerberos, cochez cette case.

Saisissez ensuite le Principal Hive du cluster à utiliser. Ce Principal devrait avoir été défini dans le fichier hive-site.xml.

Hive principal utilise la valeur de hive.metastore.kerberos.principal. C'est le principal du service du Metastore de Hive.

Force MapR Ticket authentication

Si ce cluster est un cluster MapR de version 5.0.0 ou postérieure, vous pouvez paramétrer la configuration de l'authentification par ticket MapR en plus ou comme une alternative en suivant les explications dans Connexion sécurisée à MapR.

Gardez à l'esprit que cette configuration génère un nouveau ticket de sécurité MapR pour le nom d'utilisateur défini dans le Job dans chaque exécution. Si vous devez réutiliser un ticket existant provenant du même utilisateur, laissez décochées les cases Force MapR ticket authentication et Use Kerberos authentication. MapR devrait pouvoir trouver automatiquement ce ticket à la volée.

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Déposez un tHiveConfiguration à côté du Job relatif à Hive pour l'exécuter dans le même Job, afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.