Propriétés du tMapRStreamsInput Standard - 7.1

MapRStreams

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
Gouvernance de données > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
Qualité et préparation de données > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tMapRStreamsInput s'exécutant dans le framework de Jobs Standard.

Le composant tMapRStreamsInput Standard appartient à la famille Internet.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Notez que le schéma de ce composant est en lecture seule. Il stocke les messages envoyés du producteur de messages.

Output type

Sélectionnez le type de données à envoyer au composant suivant.

Généralement, il est recommandé d'utiliser le type String, car le tMapRStreamsInput peut automatiquement traduire les messages MapR Streams de type byte[] en chaînes de caractères, afin de les traiter par le Job. Cependant, si le format des messages MapR Streams est inconnu du tMapRStreamsInput, comme Protobuf, vous pouvez sélectionner byte[] et utiliser un composant Custom code, comme le tJavaRow, afin de désérialiser les messages en chaînes de caractères, afin que les autres composants du Job puissent traiter ces messages.

Use an existing connection

Cochez cette case et, dans la liste qui s'affiche, sélectionnez le composant de connexion permettant de réutiliser les informations de connexion précédemment définies.

Distribution et Version

Sélectionnez la distribution MapR à utiliser. Seules les versions 5.2 et supérieures de MapR sont supportées par les composants MapRDB.

Si la distribution que vous devez utiliser pour votre base de données MapRDB n'est pas officiellement supportée par ce composant MapRBD, c'est-à-dire, si la distribution de MapR ne s'affiche pas dans la liste déroulante Version de ce composant ou si cette distribution n'est pas MapR, sélectionnez Custom.

  1. Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution.

  2. Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier .zip doit contenir les bibliothèques des différents éléments Hadoop/Spark et le fichier d'index de ces bibliothèques.

    Dans Talend Exchange, les membres de la communauté Talend ont partagé quelques fichiers zip de configuration prêts à l'emploi que vous pouvez télécharger depuis cette liste Hadoop configuration et utiliser directement dans votre connexion. Cependant, comme les différents projets relatifs à Hadoop ne cessent d'évoluer, il est possible que vous ne trouviez pas dans la liste le zip de configuration correspondant à votre distribution. Il est alors recommandé d'utiliser l'option Import from existing version, afin de se baser sur une distribution existante pour ajouter les .jars requis par votre distribution.

    Notez que les versions personnalisées ne sont pas officiellement supportées par Talend . Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple, car de nombreuses versions et distributions d'Hadoop différentes sont disponibles. Il est recommandé de configurer ces connexions si vous avez une expérience suffisante de Hadoop et de Spark pour gérer par vous-même les problèmes pouvant survenir.

    Remarque :

    Dans cette boîte de dialogue, la case de la zone active doit être cochée, afin d'importer les fichiers .jar correspondant à la connexion créée entre la distribution personnalisée et ce composant.

    Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Connexion à une distribution Hadoop personnalisée.

Topic name

Saisissez le nom du topic duquel le tMapRStreamsInput reçoit le flux des messages. Vous devez saisir le nom du flux auquel ce topic appartient. La syntaxe est la suivante : chemin_du_flux:nom_du_topic

Consumer group ID

Saisissez le nom du groupe de consommateurs auquel vous souhaitez que le consommateur courant (le composant tMapRStreamsInput) appartienne.

Ce groupe de consommateurs sera créé lors de l'exécution s'il n'existe pas.

Reset offsets on consumer group

Cochez cette case pour supprimer les offsets sauvegardés pour le groupe de consommateurs à utiliser, afin que ce groupe de consommateurs soit géré comme un nouveau groupe n'ayant consommé aucun message.

New consumer group starts from

Sélectionnez le point de départ duquel les messages d'un topic sont consommés.

Dans MapR Streams, le numéro d'ID séquentiel d'un message se nomme offset. Lorsqu'un nouveau groupe de consommateurs démarre, dans cette liste, vous pouvez sélectionner beginning pour commencer la consommation depuis le message le plus ancien du topic entier ou sélectionner latest pour attendre un nouveau message.

Notez que le groupe de consommateurs prend en compte uniquement les messages dont l'offset a été commité comme point de départ.

Chaque groupe de consommateurs possède son propre compteur pour se rappeler la position d'un message consommé. Pour cette raison, une fois qu'un groupe de consommateurs a commencé à consommer des messages d'un topic donné, un groupe de consommateurs reconnaît le message le plus récent en voyant simplement la position où son groupe a arrêté la consommation, plutôt que le topic complet. Partant de ce principe, les comportements suivants peuvent être attendus :

  • Si vous reprenez un groupe de consommateurs existant, cette option détermine le point de départ de ce groupe de consommateurs uniquement s'il n'a pas déjà de point de départ commité. Sinon, ce groupe de consommateurs démarre du point de départ commité. Par exemple, un topic contient 100 messages. Si un groupe de consommateurs existant a traité 50 messages et a commité leurs offsets, le même groupe de consommateurs reprend à partir de l'offset 51.

  • Si vous créez un nouveau groupe de consommateurs ou en réinitialisez un existant, ce qui signifie que ce groupe n'a consommé aucun message de ce topic, lorsque vous le démarrez depuis le dernier message, ce nouveau groupe démarre et attend l'offset 101.

Auto-commit offsets

Cochez cette case pour que le tMapRStreamsInput sauvegarde automatiquement l'état de sa consommation, à la fin de chaque intervalle de temps donné. Vous devez définir cet intervalle dans le champ Interval affiché.

Notez que les offsets sont commités uniquement à la fin de chaque intervalle. Si votre Job s'arrête au milieu d'un intervalle, l'était de consommation du message dans cet intervalle n'est pas commité.

Stop after a maximum total duration (ms)

Cochez cette case et, dans le champ qui s'affiche, saisissez la durée (en millisecondes) à la fin de laquelle le tMapRStreamsInput arrête son exécution.

Stop after receiving a maximum number of messages

Cochez cette case et, dans le champ qui s'affiche, saisissez le nombre maximal de messages que le tMapRStreamsInput doit recevoir avant qu'il arrête automatiquement de s'exécuter.

Stop after maximum time waiting between messages (ms)

Cochez cette case et, dans le champ qui s'affiche, saisissez le temps d'attente (en millisecondes) durant lequel le tMapRStreamsInput attend un nouveau message. Si le tMapRStreamsInput ne reçoit pas de nouveau message et que l'intervalle de temps est épuisé, son exécution s'arrête.

Advanced settings

Consumer properties

Ajoutez les propriétés de consommation Kafka nécessaires pour personnaliser cette table.

Pour plus d'informations concernant les propriétés de consommation à définir dans cette table, consultez la documentation de MapR Streams à l'adresse suivante MapR Streams Overview (en anglais).

Timeout precision(ms)

Saisissez, en millisecondes, la durée à la suite de laquelle vous souhaitez retourner une exception de suspension si aucun message n'est disponible à la consommation.

La valeur -1 indique qu'aucun délai avant suspension n'est configuré.

Load the offset with the message

Cochez cette case pour écrire en sortie les offsets des messages consommés au composant suivant. Lorsque vous cochez cette case, une colonne offset en lecture seule est ajoutée au schéma.

Custom encoding

Il est possible de rencontrer des problèmes d'encodage lorsque vous traitez les données stockées. Dans ce cas, cochez cette case pour afficher la liste Encoding.

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Variables globales

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Lorsque le topic MapR Streams à utiliser n'existe pas, vous pouvez d'abord créer ce topic à l'aide du composant tMapRStreamsCreateTopic ou de votre interface en ligne de commande MapR.

Prérequis

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les bibliothèques du client MapR correspondant à chaque OS peuvent être trouvées dans MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue Preferences dans le menu Window. Cet argument fournit au Studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le Studio les données stockées dans MapR.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.