tHBaseInput - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'une des solutions Big Data de Talend.

Fonction

Le composant tHBaseInput extrait des colonnes selon la définition du schéma. Les colonnes sont passées au composant suivant via un lien Main > Row.

Objectif

Le tHBaseInput lit des données d'une base de données HBase et extrait les colonnes sélectionnées. HBase est une base de données distribuée, orientée colonnes, hébergeant des tables volumineuses et peu peuplées, dans des clusters.

Si vous avez souscrit à l'une des solutions Big Data de Talend, ce composant est disponible dans les types de Job suivants :

Filtres HBase

Ce tableau présente les filtres HBase disponibles dans le Studio Talend ainsi que les paramètres requis par ces filtres.

Filter type (type de filtre)

Filter column

Filter familyFilter operationFilter valueFilter comparator typeObjectif

Single Column Value Filter

Oui

Oui

Oui

Oui

Oui

Compare les valeurs d'une colonne donnée par rapport à la valeur définie du paramètre Filter value. Si les conditions de filtre sont respectées, toutes les colonnes de la ligne sont retournées.

Family filter

 

Oui

Oui

 

Oui

Retourne les colonnes de la famille répondant aux conditions de filtre.

Qualifier filter

Oui

 

Oui

 

Oui

Retourne les colonnes dont le nom (qualifier) répond à la condition de filtre.

Column prefix filter

Oui

Oui

   

Retourne toutes les colonnes dont le qualifier contient un préfixe défini dans le paramètre Filter column.

Multiple column prefix filter

Oui (Différents préfixes doivent être séparés par une virgule, par exemple : id,id_1,id_2.)

Oui

   

Fonctionne de la même manière que le Column prefix filter mais vous permet de spécifier différents préfixes.

Column range filter

Oui (Les limites de début et de fin de la plage doivent être séparées par une virgule.)

Oui

   Permet un scanner l'intérieur d'une ou plusieurs ligne(s) et de retourner toutes les colonnes correspondantes d'une ligne scannée.

Row filter

  

Oui

Oui

OuiFiltre les clés de lignes et retourne toutes les lignes répondant à la condition de filtre.

Value filter

  

Oui

Oui

Oui

Retourne uniquement les colonnes ayant une valeur spécifique.

Les explications concernant l'usage des filtres HBase listés ci-dessus peuvent être modifiées par Apache dans son projet Apache HBase. Afin de comprendre entièrement comment utiliser ces filtres HBase, il est recommandé de lire la documentation Apache HBase.

Propriétés du tHBaseInput

Famille de composant

Databases/HBase

 

Basic settings

Property type

Peut être Built-in ou Repository.

- Built-in : Propriétés utilisées ponctuellement.

- Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

 

Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings.

Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide utilisateur du Studio Talend.

 

Use an existing connection

Note

Indisponible pour la version Map/Reduce du composant.

Cochez cette case et sélectionnez le composant de connexion adéquat à partir de la liste Component List pour réutiliser les paramètres d'une connexion que vous avez déjà définie.

Version

Distribution

Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Les options de la liste dépendent des composants que vous utilisez, Parmi ces options, les suivantes nécessitent une configuration spécifique.

  • Si disponible dans la liste de Distribution, l'option Microsoft HD Insight vous permet d'utiliser un cluster Microsoft HD Insight. Dans cette optique, vous devez configurez les connexions aux services WebHCat, HD Insight et Windows Azure Storage du cluster dans les zones affichées. Une vidéo démontrant comment configurer cette connexion est disponible à l'adresse suivante : https://www.youtube.com/watch?v=A3QTT6VsNoM.

  • L'option Custom vous permet de vous connecter à un cluster différente des clusters de la liste, par exemple une distribution non supportée officiellement par Talend.

Pour vous connecter à une distribution personnalisée, une fois l'option Custom sélectionnée, cliquez sur le bouton pour afficher une fenêtre, dans laquelle vous pouvez :

  1. Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution. Ou,

  2. Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier zip doit contenir les bibliothèques des différents éléments Hadoops et le fichier d'index de ces bibliothèques.

    Dans Talend Exchange, des membres de la Communauté Talend ont partagé des fichiers zip de configuration prêts à utiliser, que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion. Cependant, avec l'évolution en continu des différents projets relatifs à Hadoop, il est possible que vous ne trouviez pas dans la liste le zip de configuration correspondant à votre distribution. Il est alors recommandé d'utiliser l'option Import from existing version, afin de se baser sur une distribution existante pour ajouter les .jars requis par votre distribution.

    Notez que certaines versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple, car de nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est recommandé de configurer une telle connexion uniquement si vos connaissances relatives à Hadoop sont suffisantes pour réparer les problèmes par vous-même.

    Note

    Dans cette boîte de dialogue, la case de la zone active doit être cochée, afin d'importer les fichiers .jar correspondant à la connexion créée entre la distribution personnalisée et ce composant.

    Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Connexion à une distribution Hadoop personnalisée.

 

HBase version

Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. En plus de l'évolution de Hadoop, veuillez noter les changements suivants :

  • Si vous utilisez Hortonworks Data Platform V2.2, les fichiers de configuration de votre cluster peuvent utiliser des variables d'environnement comme ${hdp.version}. Si vous êtes dans cette situation, vous devez configurer la propriété mapreduce.application.framework.path dans la table Hadoop properties de ce composant, avec la valeur du chemin d'accès pointant explicitement vers l'archive du framework MapReduce de votre cluster. Par exemple :

    mapreduce.application.framework.path=/hdp/apps/2.2.0.0-2041/mapreduce/mapreduce.tar.gz#mr-framework
  • Si vous utilisez Hortonworks Data Platform V2.0.0, le type de système d'exploitation utilisé pour la distribution Hadoop et pour le Job Talend doit être identique, par exemple Windows ou Linux. Sinon, vous devez utiliser le Jobserver de Talend afin d'exécuter un Job dans le même type de système d'exploitation que celui dans lequel la distribution Hortonworks Data Platform V2.0.0 utilisée est exécutée. Pour plus d'informations concernant le Jobserver de Talend, consultez le Guide d'installation Talend.

 

Hadoop version of the distribution

Cette liste s'affiche uniquement lorsque vous avez sélectionné Custom dans la liste des distributions à connecter à un cluster n'étant pas officiellement supporté par le Studio. Dans cette situation, sélectionnez la version de Hadoop de ce cluster personnalisé, Hadoop 1 ou Hadoop 2.

 

Zookeeper quorum

Saisissez le nom ou l'URL du service Zookeeper utilisé pour coordonner les transactions entre Talend et HBase. Notez que, lorsque vous configurez Zookeeper, vous pouvez avoir besoin de configurer la propriété zookeeper.znode.parent pour définir la racine du chemin relatif d'un fichier HBase Zookeeper puis de sélectionner la case Set Zookeeper znode parent afin de définir cette propriété.

 

Zookeeper client port

Saisissez le numéro du port d'écoute client du service Zookeeper que vous utilisez.

 

Use kerberos authentication

Si vous accédez à une base de données HBase utilisant la sécurité Kerberos, cochez cette case puis saisissez les noms des principaux relatifs à HBase dans les champs correspondants. Vous pouvez trouver cette information dans le fichier hbase-site.xml du cluster utilisé.

Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier keytab contient des paires de principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab.

Notez que l'utilisateur qui exécute un Job utilisant un keytab n'est pas forcément celui désigné par le principal mais qu'il doit avoir le droit de lecture pour le fichier keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Set table Namespace mappings

Cochez cette case et, dans le champ qui s'affiche, saisissez la chaîne de caractères à utiliser pour construire le mapping entre une table Apache HBase table et une table MapR.

Pour plus d'informations concernant la syntaxe valide à utiliser, consultez http://doc.mapr.com/display/MapR40x/Mapping+Table+Namespace+Between+Apache+HBase+Tables+and+MapR+Tables (en anglais).

 

Table name

Saisissez le nom de la table de la base de données HBase de laquelle vous souhaitez extraire les colonnes.

 

Define a row selection

Cochez cette case et, dans les champs Start row et End row, saisissez les Row Keys correspondants afin de spécifier la plage de lignes que vous souhaitez faire extraire par le composant.

À la différence des filtres que vous pouvez définir à l'aide de l'option Is by filter nécessitant le chargement de tous les enregistrements avant de pouvoir filtrer les lignes à utiliser, cette fonctionnalité vous permet de sélectionner directement les lignes qui vous intéressent.

 Mapping

Renseignez cette table afin de mapper les colonnes de la table HBase à utiliser avec les colonnes du schéma défini pour le flux de données à traiter.

 

Die on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient.

Décochez la case pour ignorer les lignes en erreur et terminer le processus avec les lignes sans erreur. Lorsque les erreurs sont ignorées,vous pouvez récupérer les lignes en erreur, si vous le souhaitez. Pour cela, utilisez un lien Row > Reject.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant. Notez que cette case n'est pas disponible dans la version Map/Reduce de ce composant.

 

Properties

Si vous devez utiliser la configuration personnalisée pour votre HBase, renseignez dans cette table la ou les propriété(s) à personnaliser. Lors de l'exécution, la ou les propriété(s) personnalisée(s) vont écraser les propriétés utilisées par le Studio Talend pour son moteur HBase.

Par exemple, vous devez définir la valeur de la propriété dfs.replication comme étant 1 pour la configuration de HBase. Vous devez ensuite ajouter une ligne à la table à l'aide du bouton [+] et saisir le nom et la valeur de cette propriété dans la ligne.

Note

Cette table est indisponible lorsque vous utilisez une connexion existante en cochant la case Using an existing connection dans la vue Basic settings.

Filter

Is by filter

Cochez cette case pour utiliser des filtres HBase afin d'effectuer une sélection granulaire fine depuis HBase, comme un sélection de clés ou de valeurs, selon des expressions régulières.

Une fois cette case cochée, la table Filter utilisée pour définir les conditions de filtre devient disponible.

Ces filtres sont des fonctionnalités avancées fournies par HBase et sujettes aux contraintes présentées dans la documentation Apache HBase. Un niveau avancé de connaissances de HBase est requis pour que les utilisateurs puissent utiliser pleinement ces filtres.

 

Logical operation

Sélectionnez l'opérateur à utiliser pour définir la relation logique entre les filtres. Les opérateurs disponibles sont :

  • And : chaque condition de filtre définie doit être satisfaite. Elle représente la relation FilterList.Operator.MUST_PASS_ALL.

  • Or : au moins une des conditions de filtre définie doit être satisfaite. Elle représente la relation : FilterList.Operator.MUST_PASS_ONE.

 

Filter

Cliquez sur le bouton sous cette table pour ajouter autant de lignes que nécessaire. Chaque ligne représente un filtre. Les paramètres que vous devez configurer pour un filtre sont :

  • Filter type : la liste déroulante présente les types de filtre prédéfinis par HBase. Sélectionnez le type de filtre à utiliser.

  • Filter column : saisissez le nom de la colonne (qualifier) sur lequel vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter family : saisissez la famille de colonne sur laquelle vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter operation : sélectionnez dans la liste déroulante l'opération à utiliser pour le filtre actif.

  • Filter Value : saisissez le valeur sur laquelle utiliser l'opérateur sélectionné dans la liste Filter operation.

  • Filter comparator type : sélectionnez le type de comparateur à combiner au filtre que vous utilisez.

Selon le type de filtre (Filter type) que vous utilisez, certains paramètres, voire tous les paramètres sont obligatoires. Pour plus d'informations, consultez Filtres HBase.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant d'entrée et requiert un composant de sortie.

Prérequis

Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par HBase sont respectés. Pour plus d'informations, consultez la documentation de Apache HBase à l'adresse suivante : http://hbase.apache.org/ (en anglais).

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend. La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences]. Cet argument fournit au studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le studio les données stockées dans MapR. Pour plus d'informations concernant la configuration de cet argument, consultez la section expliquant comment visualiser les données dans le Guide de prise en main de Talend Big Data.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario : Echanger des données clients avec HBase

Dans ce scénario, un Job a six composants est utilisé afin d'échanger des données clients avec une base de données HBase.

Ces six composants sont :

  • un tHBaseConnection : crée une connexion à votre base de données HBase.

  • un tFixedFlowInput : crée les données à écrire dans votre base HBase. Dans un cas d'utilisation réel, ce composant peut être remplacé par d'autres composants d'entrée, tels que le tFileInputDelimited.

  • un tHBaseOutput : écrit les données qu'il reçoit du composant précédent dans votre base de données HBase.

  • un tHBaseInput : extrait les colonnes souhaitées de votre base de données HBase.

  • un tLogRow : présente les résultats d'exécution.

  • un tHBaseClose: ferme la connexion.

Pour reproduire ce scénario, procédez comme dans les sections suivantes.

Note

Avant de commencer à reproduire le scénario, vérifiez que votre base de données Hbase et votre service Zookeeper ont été installés et configurés correctement. Ce scénario explique uniquement comment utiliser Talend pour effectuer une transaction avec une base de données HBase.

Déposer et relier les composants

Pour ce faire, procédez comme suit :

  1. Déposez un tHBaseConnection, un tFixedFlowInput, un tHBaseOutput, un tHBaseInput, un tLogRow et un tHBaseClose de la Palette dans l'espace de modélisation graphique.

  2. Cliquez-droit sur le composant tHBaseConnection afin d'ouvrir son menu contextuel et sélectionnez Trigger > On Subjob Ok pour connecter ce composant au tFixedFlowInput.

  3. Répétez l'opération afin de créer le lien OnSubjobOk du tFixedFlowInput au tHBaseInput puis au tHBaseClose.

  4. Cliquez-droit sur le tFixedFlowInput et sélectionnez Row > Main afin de connecter ce composant au tHBaseOutput.

  5. Répétez l'opération pour créer le lien Main du tHBaseInput au tLogRow.

Les composants de ce scénario sont placés et connectés entre eux. Vous devez les configurer.

Configurer la connexion

Pour configurer la connexion à votre service Zookeeper puis à la base HBase souhaitée, procédez comme suit :

  1. Dans l'espace de modélisation de votre Studio Talend, double-cliquez sur le composant tHBaseConnection pour ouvrir sa vue Component.

  2. Sélectionnez Hortonworks Data Platform dans la liste HBase version.

  3. Dans le champ Zookeeper quorum, saisissez le nom ou l'URL du service Zookeeper que vous utilisez. Dans cet exemple, le nom du service est hbase.

  4. Dans le champ Zookeeper client port, saisissez le numéro du port client d'écoute. Dans cet exemple, saisissez 2181.

  5. Si l'emplacement de Zookeeper znode parent a été défini dans le cluster Hadoop auquel vous vous connectez, cochez la case Set zookeeper znode parent et saisissez la valeur de la propriété dans le champ affiché.

Configurer l'écriture de données dans la base HBase

Pour ce faire, procédez comme suit :

  1. Dans l'espace de modélisation graphique, double-cliquez sur le composant tFixedFlowInput pour ouvrir sa vue Component.

  2. Dans cette vue, cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir l'éditeur de schéma.

  3. Cliquez trois fois sur le bouton [+] pour ajouter trois lignes, puis, dans la colonne Column, renommez respectivement les trois lignes comme suit : id, name et age.

  4. Dans la colonne Type, cliquez sur chacune de ces lignes, puis dans la liste déroulante, sélectionnez le type de données de chaque ligne. Dans ce scénario, sélectionnez Integer pour id et age, String pour name.

  5. Cliquez sur OK afin de valider ces modifications et acceptez la propagation proposée par la fenêtre pop-up.

  6. Dans la zone Mode, sélectionnez Use Inline Content (delimited file) pour afficher les champs à éditer.

  7. Dans le champ Content, saisissez les données délimitées à écrire dans la base de données HBase, séparées par un ;. Dans cet exemple, les données sont :

    1;Albert;23
    2;Alexandre;24
    3;Alfred-Hubert;22
    4;Andre;40
    5;Didier;28
    6;Anthony;35
    7;Artus;32
    8;Catherine;34
    9;Charles;21
    10;Christophe;36
    11;Christian;67
    12;Danniel;54
    13;Elisabeth;58
    14;Emile;32
    15;Gregory;30 
  8. Double-cliquez sur le composant tHBaseOutput afin d'afficher sa vue Component.

    Note

    Si ce composant n'a pas le même schéma que le composant précédent, une icône d'avertissement apparaît. Dans ce cas, cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent. L'icône d'avertissement disparaît.

  9. Cochez la case Use an existing connection puis sélectionnez la connexion précédemment configurée. Dans cet exemple, sélectionnez tHBaseConnection_1.

  10. Dans le champ Table name, saisissez le nom de la table à créer dans la base de données HBase. Dans cet exemple, saisissez customer.

  11. Dans le champ Action on table, sélectionnez l'action que vous souhaitez effectuer, dans la liste déroulante. Dans ce scénario, sélectionnez Drop table if exists and create. Ainsi, si une table nommée customer existe déjà dans la base de données HBase, elle sera effacée avant la création de la nouvelle table.

  12. Cliquez sur l'onglet Advanced settings afin d'ouvrir la vue correspondante.

  13. Dans la table Family parameters, ajoutez deux lignes en cliquant deux fois sur le bouton [+] et renommez-les respectivement family1 et family2. Laissez les autres colonnes vides. Ces deux colonnes seront créées dans la base de données HBase avec les options de performances par défaut.

    Note

    La table Family parameters est disponible uniquement lorsque l'action sélectionnée dans la liste Action on table est de créer une table dans la base de données HBase. Pour plus d'informations concernant la table Family parameters, consultez tHBaseOutput.

  14. Dans la table Families de la vue Basic settings, saisissez le nom des familles dans la colonne Family name, chaque nom correspondant à la colonne contenue par la famille. Dans cet exemple, les colonnes id et age appartiennent à la famille family1 et la colonne name à la famille family2.

    Note

    Ces familles de colonnes doivent déjà exister dans la base de données HBase à laquelle vous vous connectez ou elles doivent être définies dans la table Family parameters de la vue Advanced settings.

Configurer l'extraction des données de la base HBase

Pour ce faire, effectuez les opération suivantes :

  1. Double-cliquez sur le tHBaseInput afin d'ouvrir sa vue Component.

  2. Cochez la case Use an existing connection puis sélectionnez la connexion configurée précédemment. Dans cet exemple, la connexion est tHBaseConnection_1.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.

  4. Cliquez trois fois sur le bouton [+] pour ajouter trois colonnes et renommez-les respectivement id, name et age dans la colonne Column. Cela signifie que vous allez extraire ces trois colonnes de la base HBase.

  5. Sélectionnez le type de chaque colonne. Dans cet exemple, sélectionnez Integer pour id et age, String pour name.

  6. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la fenêtre pop-up.

  7. Dans le champ Table name, saisissez le nom de la table dont vous souhaitez extraire les colonnes. Dans ce scénario, la table se nomme customer.

  8. Dans la table Mapping, la colonne Column a été automatiquement renseignée, puisque le schéma est défini. Saisissez simplement le nom de chaque famille dans la colonne Column family, chaque nom correspondant à la colonne que la famille contient.

  9. Double-cliquez sur le composant tHBaseClose pour ouvrir sa vue Component.

  10. Dans le champ Component List, sélectionnez la connexion que vous souhaitez fermer. Dans cet exemple, sélectionnez tHBaseConnection_1.

Exécuter le Job

Pour exécuter ce Job, appuyez sur F6.

La vue Run s'ouvre automatiquement et vous pouvez voir les résultats d'exécution.

Les colonnes souhaitées sont extraites. Vous pouvez donc les traiter selon vos besoins.

En vous connectant à votre base de données HBase, vous pouvez constater que la table customer a bien été créée.

Le tHBaseInput dans des Jobs Talend Map/Reduce

Avertissement

Les informations contenues dans cette section concernent uniquement les utilisateurs ayant souscrit à l'une des solutions Big Data de Talend et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Dans un Job Map/Reduce Talend, le tHDFSInput, ainsi que le Job complet utilisant ce composant, génère du code Map/Reduce natif. Cette section présente les propriétés spécifiques du tHBaseInput lorsqu'il est utilisé dans un Job Map/Reduce. Pour plus d'informations concernant un Job Map/Reduce Talend, consultez le Guide de prise en main de Talend Big Data.

Famille de composant

Databases/HBase

 

Basic settings

Property type

Peut être Built-in ou Repository.

- Built-in : Propriétés utilisées ponctuellement.

- Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

 

Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings.

Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide utilisateur du Studio Talend.

Version

Distribution

Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Les options de la liste dépendent des composants que vous utilisez, Parmi ces options, les suivantes nécessitent une configuration spécifique.

  • Si disponible dans la liste de Distribution, l'option Microsoft HD Insight vous permet d'utiliser un cluster Microsoft HD Insight. Dans cette optique, vous devez configurez les connexions aux services WebHCat, HD Insight et Windows Azure Storage du cluster dans les zones affichées. Une vidéo démontrant comment configurer cette connexion est disponible à l'adresse suivante : https://www.youtube.com/watch?v=A3QTT6VsNoM.

  • L'option Custom vous permet de vous connecter à un cluster différente des clusters de la liste, par exemple une distribution non supportée officiellement par Talend.

Pour vous connecter à une distribution personnalisée, une fois l'option Custom sélectionnée, cliquez sur le bouton pour afficher une fenêtre, dans laquelle vous pouvez :

  1. Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution. Ou,

  2. Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier zip doit contenir les bibliothèques des différents éléments Hadoops et le fichier d'index de ces bibliothèques.

    Dans Talend Exchange, des membres de la Communauté Talend ont partagé des fichiers zip de configuration prêts à utiliser, que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion. Cependant, avec l'évolution en continu des différents projets relatifs à Hadoop, il est possible que vous ne trouviez pas dans la liste le zip de configuration correspondant à votre distribution. Il est alors recommandé d'utiliser l'option Import from existing version, afin de se baser sur une distribution existante pour ajouter les .jars requis par votre distribution.

    Notez que certaines versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple, car de nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est recommandé de configurer une telle connexion uniquement si vos connaissances relatives à Hadoop sont suffisantes pour réparer les problèmes par vous-même.

    Note

    Dans cette boîte de dialogue, la case de la zone active doit être cochée, afin d'importer les fichiers .jar correspondant à la connexion créée entre la distribution personnalisée et ce composant.

    Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Connexion à une distribution Hadoop personnalisée.

Dans la version Map/Reduce de ce composant, la distribution que vous sélectionnez doit être la même que celle définie dans la vue Hadoop configuration pour le Job.

 

HBase version

Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. En plus de l'évolution de Hadoop, veuillez noter les changements suivants :

  • Si vous utilisez Hortonworks Data Platform V2.2, les fichiers de configuration de votre cluster peuvent utiliser des variables d'environnement comme ${hdp.version}. Si vous êtes dans cette situation, vous devez configurer la propriété mapreduce.application.framework.path dans la table Hadoop properties de ce composant, avec la valeur du chemin d'accès pointant explicitement vers l'archive du framework MapReduce de votre cluster. Par exemple :

    mapreduce.application.framework.path=/hdp/apps/2.2.0.0-2041/mapreduce/mapreduce.tar.gz#mr-framework
  • Si vous utilisez Hortonworks Data Platform V2.0.0, le type de système d'exploitation utilisé pour la distribution Hadoop et pour le Job Talend doit être identique, par exemple Windows ou Linux. Sinon, vous devez utiliser le Jobserver de Talend afin d'exécuter un Job dans le même type de système d'exploitation que celui dans lequel la distribution Hortonworks Data Platform V2.0.0 utilisée est exécutée. Pour plus d'informations concernant le Jobserver de Talend, consultez le Guide d'installation Talend.

 

Hadoop version of the distribution

Cette liste s'affiche uniquement lorsque vous avez sélectionné Custom dans la liste des distributions à connecter à un cluster n'étant pas officiellement supporté par le Studio. Dans cette situation, sélectionnez la version de Hadoop de ce cluster personnalisé, Hadoop 1 ou Hadoop 2.

 

Zookeeper quorum

Saisissez le nom ou l'URL du service Zookeeper utilisé pour coordonner les transactions entre Talend et HBase. Notez que, lorsque vous configurez Zookeeper, vous pouvez avoir besoin de configurer la propriété zookeeper.znode.parent pour définir la racine du chemin relatif d'un fichier HBase Zookeeper puis de sélectionner la case Set Zookeeper znode parent afin de définir cette propriété.

 

Zookeeper client port

Saisissez le numéro du port d'écoute client du service Zookeeper que vous utilisez.

 

Use kerberos authentication

Si vous accédez à une base de données HBase utilisant la sécurité Kerberos, cochez cette case puis saisissez les noms des principaux relatifs à HBase dans les champs correspondants. Vous pouvez trouver cette information dans le fichier hbase-site.xml du cluster utilisé.

Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier keytab contient des paires de principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab.

Notez que l'utilisateur qui exécute un Job utilisant un keytab n'est pas forcément celui désigné par le principal mais qu'il doit avoir le droit de lecture pour le fichier keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Set table Namespace mappings

Cochez cette case et, dans le champ qui s'affiche, saisissez la chaîne de caractères à utiliser pour construire le mapping entre une table Apache HBase table et une table MapR.

Pour plus d'informations concernant la syntaxe valide à utiliser, consultez http://doc.mapr.com/display/MapR40x/Mapping+Table+Namespace+Between+Apache+HBase+Tables+and+MapR+Tables (en anglais).

 

Table name

Saisissez le nom de la table de la base de données HBase de laquelle vous souhaitez extraire les colonnes.

 

Define a row selection

Cochez cette case et, dans les champs Start row et End row, saisissez les Row Keys correspondants afin de spécifier la plage de lignes que vous souhaitez faire extraire par le composant.

À la différence des filtres que vous pouvez définir à l'aide de l'option Is by filter nécessitant le chargement de tous les enregistrements avant de pouvoir filtrer les lignes à utiliser, cette fonctionnalité vous permet de sélectionner directement les lignes qui vous intéressent.

 Mapping

Renseignez cette table afin de mapper les colonnes de la table HBase à utiliser avec les colonnes du schéma défini pour le flux de données à traiter.

 

Die on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient.

Décochez la case pour ignorer les lignes en erreur et terminer le processus avec les lignes sans erreur. Lorsque les erreurs sont ignorées,vous pouvez récupérer les lignes en erreur, si vous le souhaitez. Pour cela, utilisez un lien Row > Reject.

Advanced settings

Properties

Si vous devez utiliser la configuration personnalisée pour votre HBase, renseignez dans cette table la ou les propriété(s) à personnaliser. Lors de l'exécution, la ou les propriété(s) personnalisée(s) vont écraser les propriétés utilisées par le Studio Talend pour son moteur HBase.

Par exemple, vous devez définir la valeur de la propriété dfs.replication comme étant 1 pour la configuration de HBase. Vous devez ensuite ajouter une ligne à la table à l'aide du bouton [+] et saisir le nom et la valeur de cette propriété dans la ligne.

Filter

Is by filter

Cochez cette case pour utiliser des filtres HBase afin d'effectuer une sélection granulaire fine depuis HBase, comme un sélection de clés ou de valeurs, selon des expressions régulières.

Une fois cette case cochée, la table Filter utilisée pour définir les conditions de filtre devient disponible.

Ces filtres sont des fonctionnalités avancées fournies par HBase et sujettes aux contraintes présentées dans la documentation Apache HBase. Un niveau avancé de connaissances de HBase est requis pour que les utilisateurs puissent utiliser pleinement ces filtres.

 

Logical operation

Sélectionnez l'opérateur à utiliser pour définir la relation logique entre les filtres. Les opérateurs disponibles sont :

  • And : chaque condition de filtre définie doit être satisfaite. Elle représente la relation FilterList.Operator.MUST_PASS_ALL.

  • Or : au moins une des conditions de filtre définie doit être satisfaite. Elle représente la relation : FilterList.Operator.MUST_PASS_ONE.

 

Filter

Cliquez sur le bouton sous cette table pour ajouter autant de lignes que nécessaire. Chaque ligne représente un filtre. Les paramètres que vous devez configurer pour un filtre sont :

  • Filter type : la liste déroulante présente les types de filtre prédéfinis par HBase. Sélectionnez le type de filtre à utiliser.

  • Filter column : saisissez le nom de la colonne (qualifier) sur lequel vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter family : saisissez la famille de colonne sur laquelle vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter operation : sélectionnez dans la liste déroulante l'opération à utiliser pour le filtre actif.

  • Filter Value : saisissez le valeur sur laquelle utiliser l'opérateur sélectionné dans la liste Filter operation.

  • Filter comparator type : sélectionnez le type de comparateur à combiner au filtre que vous utilisez.

Selon le type de filtre (Filter type) que vous utilisez, certains paramètres, voire tous les paramètres sont obligatoires. Pour plus d'informations, consultez Filtres HBase.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation dans les Jobs Map/Reduce

Dans un Job Talend Map/Reduce, ce composant est utilisé comme composant de début et requiert un composant de transformation comme lien de sortie. Les autres composants utilisés avec lui doivent également être des composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être directement exécuté dans Hadoop.

Vous devez utiliser l'onglet Hadoop Configuration de la vue Run afin de définir la connexion à une distribution Hadoop donnée pour le Job complet.

La configuration Hadoop à utiliser pour le Job complet et la distribution Hadoop à utiliser pour les composants HBase doit être la même. Les composants HBase requièrent que les paramètres de la distribution Hadoop soient configurés séparément, afin de lancer le pilote HBase uniquement lorsque ce composant est utilisé.

Pour plus d'informations concernant les Jobs Talend Map/Reduce, consultez les sections décrivant comment créer, convertir et configurer un Job Talend Map/Reduce, dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce.

Prérequis

Avant de commencer, vérifiez que tous les prérequis de l'IP de Loopback (rebouclage) attendus par HBase sont respectés. Pour plus d'informations, consultez la documentation de Apache HBase à l'adresse suivante : http://hbase.apache.org/ (en anglais).

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend. La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences]. Cet argument fournit au studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le studio les données stockées dans MapR. Pour plus d'informations concernant la configuration de cet argument, consultez la section expliquant comment visualiser les données dans le Guide de prise en main de Talend Big Data.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Hadoop Connection

Vous devez utiliser l'onglet Hadoop Configuration de la vue Run afin de définir la connexion à une distribution Hadoop donnée pour le Job complet.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Scénarios associés

Aucun scénario n'est disponible pour la version Map/Reduce de ce composant.

Propriétés du tHBaseInput dans des Jobs Spark Batch

Famille du composant

Databases/HBase

 

Basic settings

Storage configuration

Sélectionnez le composant tHBaseConfiguration duquel le système Spark à utiliser lit les informations de configuration pour se connecter à HBase.

 

Property type

Peut être Built-in ou Repository.

- Built-in : Propriétés utilisées ponctuellement.

- Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

 

Cliquez sur cette icône pour ouvrir l'assistant de connexion à la base de données et stocker les paramètres de connexion configurés dans la vue Basic settings.

Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide utilisateur du Studio Talend.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Table name

Saisissez le nom de la table de la base de données HBase de laquelle vous souhaitez extraire les colonnes.

 

Set table Namespace mappings

Cochez cette case et, dans le champ qui s'affiche, saisissez la chaîne de caractères à utiliser pour construire le mapping entre une table Apache HBase table et une table MapR.

Pour plus d'informations concernant la syntaxe valide à utiliser, consultez http://doc.mapr.com/display/MapR40x/Mapping+Table+Namespace+Between+Apache+HBase+Tables+and+MapR+Tables (en anglais).

 

Define a row selection

Cochez cette case et, dans les champs Start row et End row, saisissez les Row Keys correspondants afin de spécifier la plage de lignes que vous souhaitez faire extraire par le composant.

À la différence des filtres que vous pouvez définir à l'aide de l'option Is by filter nécessitant le chargement de tous les enregistrements avant de pouvoir filtrer les lignes à utiliser, cette fonctionnalité vous permet de sélectionner directement les lignes qui vous intéressent.

 Mapping

Renseignez cette table afin de mapper les colonnes de la table HBase à utiliser avec les colonnes du schéma défini pour le flux de données à traiter.

Filter

Is by filter

Cochez cette case pour utiliser des filtres HBase afin d'effectuer une sélection granulaire fine depuis HBase, comme un sélection de clés ou de valeurs, selon des expressions régulières.

Une fois cette case cochée, la table Filter utilisée pour définir les conditions de filtre devient disponible.

Ces filtres sont des fonctionnalités avancées fournies par HBase et sujettes aux contraintes présentées dans la documentation Apache HBase. Un niveau avancé de connaissances de HBase est requis pour que les utilisateurs puissent utiliser pleinement ces filtres.

 

Logical operation

Sélectionnez l'opérateur à utiliser pour définir la relation logique entre les filtres. Les opérateurs disponibles sont :

  • And : chaque condition de filtre définie doit être satisfaite. Elle représente la relation FilterList.Operator.MUST_PASS_ALL.

  • Or : au moins une des conditions de filtre définie doit être satisfaite. Elle représente la relation : FilterList.Operator.MUST_PASS_ONE.

 

Filter

Cliquez sur le bouton sous cette table pour ajouter autant de lignes que nécessaire. Chaque ligne représente un filtre. Les paramètres que vous devez configurer pour un filtre sont :

  • Filter type : la liste déroulante présente les types de filtre prédéfinis par HBase. Sélectionnez le type de filtre à utiliser.

  • Filter column : saisissez le nom de la colonne (qualifier) sur lequel vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter family : saisissez la famille de colonne sur laquelle vous devez appliquer le filtre actif. Ce paramètre est obligatoire selon le type de filtre et le comparateur que vous utilisez. Par exemple, ce paramètre n'est pas utilisé par le type Row Filter mais est requis pour le type Single Column Value Filter.

  • Filter operation : sélectionnez dans la liste déroulante l'opération à utiliser pour le filtre actif.

  • Filter Value : saisissez le valeur sur laquelle utiliser l'opérateur sélectionné dans la liste Filter operation.

  • Filter comparator type : sélectionnez le type de comparateur à combiner au filtre que vous utilisez.

Selon le type de filtre (Filter type) que vous utilisez, certains paramètres, voire tous les paramètres sont obligatoires. Pour plus d'informations, consultez Filtres HBase.

 

Die HBase on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient.

Décochez la case pour ignorer les lignes en erreur et terminer le processus avec les lignes sans erreur. Lorsque les erreurs sont ignorées,vous pouvez récupérer les lignes en erreur, si vous le souhaitez. Pour cela, utilisez un lien Row > Reject.

Utilisation dans les Jobs Spark Batch

Dans un Job Talend Spark Batch, ce composant est utilisé comme composant de début et requiert un lien de sortie. Les autres composants utilisés avec lui doivent également être des composants Spark Batch. Ils génèrent nativement du code Spark pouvant être directement exécuté dans un cluster Spark.

Le composant doit utiliser un composant tHBaseConfiguration présent dans le même Job pour se connecter à HBase.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario associé

Aucun scénario n'est disponible pour la version Spark Batch de ce composant.