Propriétés du tMapRStreamsInputAvro pour Apache Spark Streaming - 6.4

MapRStreams

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
Gouvernance de données > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
Qualité et préparation de données > Systèmes tiers > Composants Messaging (Intégration) > Composants MapRStreams
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tMapRStreamsInputAvro s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tMapRStreamsInputAvro Spark Streaming appartient à la famille Messaging.

La version Streaming de ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Notez que le schéma de ce composant est en lecture seule. Il stocke le corps du message envoyé depuis le producteur du message.

Starting offset

Sélectionnez le point de départ à partir duquel les messages d'un topic seront consommés.

Dans MapR Streams, le numéro d'ID séquentiel d'un message se nomme offset. Lorsqu'un nouveau groupe de consommateurs démarre, dans cette liste, vous pouvez sélectionner beginning pour commencer la consommation à partir du composant le plus ancien du topic, ou sélectionner latest pour attendre un nouveau message.

Notez que le groupe de consommateurs prend en compte uniquement les messages dont l'offset a été commité comme point de départ.

Chaque groupe de consommateurs possède son propre compteur pour se rappeler la position d'un message consommé. Pour cette raison, une fois qu'un groupe de consommateurs à commencé à consommer des messages d'un sujet donné, un groupe de consommateurs reconnaît le message le plus récent en voyant simplement la position où son groupe a arrête la consommation, plutôt que le sujet complet. Partant de ce principe, les comportements suivants peuvent être attendus :

  • Si vous reprenez un groupe de consommateurs existant, cette option détermine le point de départ de ce groupe de consommateurs, uniquement s'il n'a pas encore de point de départ commité. Sinon, ce groupe de consommateurs démarre du point de départ commité. Par exemple, un topic contient 100 messages. Si un groupe de consommateurs existants a bien traité 50 messages et a commité leurs offsets, le même groupe de consommateurs redémarre de l'offset 51.

  • si vous créez un nouveau groupe de consommateurs ou en réinitialisez un existant, ce qui signifie que ce groupe n'a consommé aucun message de ce topic et, lorsque vous le démarrez depuis le dernier message, ce nouveau groupe démarre et attend l'offset 101.

Topic name

Saisissez le nom du topic duquel le tMapRStreamsInput reçoit le flux des messages. Vous devez saisir le nom du flux auquel ce topic appartient. La syntaxe est path_to_the_stream:topic_name.

Set number of records per second to read from each Kafka partition

Saisissez ce nombre entre guillemet doubles afin de limiter la taille de chaque batch à envoyer pour traitement.

Par exemple, si vous saisissez 100 et que la valeur du batch définie dans l'onglet Spark configuration est 2 secondes, la taille de partition pour chaque batch est de 200 messages.

Si vous laissez cette case décochée, le composant essaye de lire tous les messages disponibles en une seconde dans un batch avant d'envoyer ce dernier, ce qui peut créer un échec du Job s'il gère d'énormes quantités de messages.

Advanced settings

Consumer properties

Ajoutez les propriétés de consommation Kafka nécessaires pour personnaliser cette table.

Pour plus d'informations concernant les propriétés de consommation à définir dans cette table, consultez la documentation de MapR Streams à l'adresse suivante MapR Streams Overview (en anglais).

Use hierarchical mode

Cochez cette case pour mapper le schéma binaire (y compris le schéma hiérarchique) Avro au schéma plat défini dans l'éditeur de schéma du composant. Si le message Avro à traiter est plat, laissez cette case décochée.

Une fois cochée, vous devez configurer le(s) paramètre(s) suivant(s) :

  • Local path to the avro schema : parcourez jusqu'au fichier définissant le schéma de données Avro à traiter.

  • Mapping : créez le mapping entre les colonnes du schéma du composant courant et les données stockées dans le message hiérarchique Avro à gérer. Dans la colonne Node, vous devez saisir le chemin d'accès à JSON pointant vers les données à lire du message Avro.

Utilisation

Règle d'utilisation

Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie.

Connexion à Spark

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode : lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez d'autres distributions, utilisez un composant tHDFSConfiguration afin de spécifier le répertoire.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Prérequis

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences] dans le menu Window. Cet argument fournit au studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le studio les données stockées dans MapR.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.