Propriétés du tKafkaInputAvro pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tKafkaInputAvro s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tKafkaInputAvro Spark Streaming appartient à la famille Messaging.
Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. |
Broker list |
Saisissez les adresses des nœuds du broker du cluster Kafka à utiliser. L'adresse doit se présenter sous la forme suivante : hostname:port. Ces informations contiennent le nom et le port du nœud hébergeant dans le cluster Kafka. Si vous devez spécifier plusieurs adresses, séparez-les à l'aide d'une virgule (,). |
Starting offset |
Sélectionnez le point de départ duquel les messages d'un topic sont consommés. Dans Kafka, le numéro d'ID séquentiel d'un message se nomme offset. Dans cette liste, vous pouvez sélectionner From beginning pour commencer la consommation depuis le message le plus ancien du topic entier ou sélectionner From latest pour commencer depuis le message le plus récent ayant été consommé par le même groupe de consommateurs et à partir duquel l'offset a été commité. Notez que, pour permettre au composant de se souvenir de la position d'un message consommé, vous devez activer le point de contrôle Spark Streaming dans l'onglet Spark Configuration de la vue Run du Job. Chaque groupe de consommateurs possède son propre compteur pour se rappeler la position d'un message consommé. Pour cette raison, une fois qu'un groupe de consommateurs a commencé à consommer des messages d'un topic donné, un groupe de consommateurs reconnaît le message le plus récent en voyant simplement la position où son groupe a arrêté la consommation, plutôt que le topic complet. Partant de ce principe, les comportements suivants peuvent être attendus :
|
Topic name |
Saisissez le nom du topic depuis lequel le tKafkaInput reçoit le flux de messages. |
Group ID |
Saisissez le nom du groupe de consommateurs auquel vous souhaitez que le consommateur courant (le tKafkaInput) appartienne. Ce groupe de consommateurs sera créé lors de l'exécution s'il n'existe pas. Cette propriété est disponible uniquement lorsque vous utilisez Spark 2.0 ou si la distribution Hadoop à utiliser exécute Spark 2.0. Si vous ne connaissez pas la version de Spark que vous utilisez, contactez l'administrateur de votre cluster pour plus d'informations. |
Set number of records per second to read from each Kafka partition |
Saisissez ce nombre entre guillemets doubles afin de limiter la taille de chaque batch à envoyer pour traitement. Par exemple, si vous saisissez 100 et que la valeur du batch définie dans l'onglet Spark configuration est 2 secondes, la taille de partition pour chaque batch est de 200 messages. Si vous laissez cette case décochée, le composant essaie de lire tous les messages disponibles en une seconde dans un batch avant d'envoyer ce dernier, ce qui peut conduire le Job à ne plus répondre s'il gère une grande quantité de messages. |
Use SSL/TLS |
Cochez cette case pour activer la connexion chiffrée SSL ou TLS. Utilisez le composant tSetKeystore dans le même Job afin de spécifier les informations de chiffrement. Cette propriété est disponible uniquement lorsque vous utilisez Spark 2.0 ou si la distribution Hadoop à utiliser exécute Spark 2.0. Si vous ne connaissez pas la version de Spark que vous utilisez, contactez l'administrateur de votre cluster pour plus d'informations. Le fichier TrustStore et tout fichier KeyStore utilisé doivent être stockés localement, sur chaque nœud Spark hébergeant un exécuteur Spark. |
Use Kerberos authentication |
Si le cluster Kafka à utiliser est sécurisé par Kerberos, cochez cette case pour afficher les paramètres associés à définir :
Pour plus d'informations concernant la manière dont est sécurisé un cluster Kafka via Kerberos, consultez Authenticating using SASL (en anglais). Cette case est disponible depuis Kafka 0.9.0.1. |
Advanced settings
Kafka properties |
Ajoutez les propriétés de consommation Kafka nécessaires pour personnaliser cette table. Par exemple, configurez une valeur spécifique zookeeper.connection.timeout.ms pour éviter l'exception ZkTimeoutException. Pour plus d'informations concernant les propriétés de consommation à définir dans cette table, consultez la section décrivant la configuration du consommateur dans la documentation Kafka, à l'adresse suivante : http://kafka.apache.org/documentation.html#consumerconfigs (en anglais). |
Use hierarchical mode |
Cochez cette case pour mapper le schéma binaire (y compris le schéma hiérarchique) Avro au schéma plat défini dans l'éditeur de schéma du composant. Si le message Avro à traiter est plat, laissez cette case décochée. Une fois cochée, vous devez configurer le(s) paramètre(s) suivant(s) :
|
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. Dans l'implémentation du composant courant dans Spark, les offsets Kafka sont automatiquement gérés par Spark, c'est-à-dire, au lieu d'être commités dans Zookeeper ou Kafka, les offsets sont suivis dans les points de contrôle Spark. Pour plus d'informations concernant cette implémentation, consultez la section relative à l'approche directe dans la documentation de Spark : http://spark.apache.org/docs/latest/streaming-kafka-integration.html (en anglais). |