Propriétés du tHBaseOutput pour Apache Spark Batch - 6.5

HBase

EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants NoSQL > Composants HBase
Gouvernance de données > Systèmes tiers > Composants NoSQL > Composants HBase
Qualité et préparation de données > Systèmes tiers > Composants NoSQL > Composants HBase

Ces propriétés sont utilisées pour configurer le tHBaseOutput s'exécutant dans le framework de Jobs Spark Batch.

Le composant tHBaseOutput Spark Batch appartient à la famille Databases.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.

Paramètres simples

Storage configuration

Sélectionnez le composant tHBaseConfiguration duquel le système Spark à utiliser lit les informations de configuration pour se connecter à HBase.

Property type

Peut être Built-In ou Repository.

Built-In : aucune propriété n'est stockée de manière centrale.

Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings du composant.

Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide utilisateur du Studio Talend.

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) dans le Repository. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Modifiez le schéma en cliquant sur Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Job Designs et projets.

Table Name

Saisissez le nom de la table HBase dans laquelle vous devez écrire des données. Cette table doit déjà exister.

Row key column

Sélectionnez la colonne utilisée comme colonne Row Key de la table HBase.

Si nécessaire, cochez la case Store row key column to HBase column afin de faire de la colonne Row Key une colonne HBase appartenant à une famille de colonnes spécifique.

Families

Renseignez cette table afin de mapper les colonnes de la table à utiliser avec les colonnes du schéma défini pour le flux de données à traiter.

La colonne Column de cette table est automatiquement renseignée une fois le schéma défini. Dans la colonne Family name, saisissez les familles de colonnes que vous souhaitez créer ou utiliser pour grouper les colonnes dans la colonne Column. Pour plus d'informations concernant une famille de colonnes, consultez la documentation Apache à l'adresse suivante : Column families (en anglais).

Paramètres avancés

Use batch mode

Cochez cette case pour activer le mode de traitement par lots pour le traitement des données.

Batch size

Spécifiez le nombre d'enregistrements à traiter dans chaque lot.

Ce champ est disponible uniquement lorsque la case Use batch mode est cochée.

Use local timezone for date Cochez cette case pour utiliser la date locale de la machine sur laquelle votre Job est exécuté. Si vous ne cochez pas cette case, UTC est automatiquement utilisé pour formater les données de type Date.

Utilisation

Usage rule

Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée.

Le composant utilise un composant tHBaseConfiguration présent dans le même Job pour se connecter à HBase.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Vous devez utiliser l'onglet Spark Configuration dans la vue Run afin de définir la connexion à un cluster Spark donné pour le Job entier. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode  : lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez d'autres distributions, utilisez un composant tHDFSConfiguration afin de spécifier le répertoire.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.