Propriétés du tMongoDBConfiguration pour Apache Spark Streaming - Cloud - 8.0

MongoDB

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants NoSQL > Composants MongoDB
Gouvernance de données > Systèmes tiers > Composants NoSQL > Composants MongoDB
Qualité et préparation de données > Systèmes tiers > Composants NoSQL > Composants MongoDB
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le tMongoDBConfiguration s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tMongoDBConfiguration Spark Streaming appartient aux familles Bases de données et Bases de données NoSQL.

Ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Property type

Peut être Built-In ou Repository.

Built-In : aucune propriété n'est stockée de manière centrale.

Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

DB Version

Sélectionnez la version de la base de données MongoDB à laquelle vous connecter.

Use connection string

Cochez cette case pour établir une connexion à l'aide d'un URI (Uniform Resource Identifier).

Vous devez ensuite cliquer sur le bouton [...] et saisir l'URI entre guillemets doubles dans la boîte de dialogue Enter a new password qui s'ouvre, puis cliquer sur OK pour sauvegarder les paramètres.

Notez que l'URI fournit directement le nom d'utilisateur·trice et le mot de passe. Les paramètres Username et Password ne sont donc pas disponibles.

Important : Le format d'URI MongoDB Atlas n'est pas supporté dans les Jobs Spark Streaming.

Pour plus d'informations, consultez la section Connection String URI Format de la documentation MongoDB (en anglais).

Cette option est disponible uniquement si vous sélectionnez MongoDB 4+ dans la liste déroulante DB Version et que vous avez installé la mise à jour mensuelle 8.0.1-R2023-05 du Studio Talend ou une plus récente fournie par Talend.

Use replica set address or multiple query routers

Cochez cette case pour afficher la table Server addresses.

Dans la table Server addresses, définissez les bases de données MongoDB partagées ou les ensembles de répliques MongoDB auxquel(le)s vous souhaitez vous connecter.

Server et Port

Saisissez l'adresse IP et le numéro du port d'écoute du serveur de la base de données.

Disponible lorsque la case Use replica set address or multiple query routers n'est pas cochée.

Database

Saisissez le nom de la base de données MongoDB à laquelle vous connecter.

Use SSL connection

Cochez cette case pour activer la connexion chiffrée SSL ou TLS.

Utilisez le composant tSetKeystore dans le même Job afin de spécifier les informations de chiffrement.

Configurez la propriété spark.executor.extraJavaOptions, dans la table Advanced properties de l'onglet Spark configuration, dans la vue Run. Par exemple :
"spark.executor.extraJavaOptions" :
"-Djavax.net.ssl.trustStorePassword
=password 
-Djavax.net.ssl.trustStore=
/tmp/keystore.jks 
-Djavax.net.ssl.trustStoreType=JKS"
Cette propriété configure les mêmes paramètres que le tSetKeystore pour les exécuteurs Spark, vous pouvez donc copier les valeurs du tSetKeystore. De plus, vous devez déployer le Keystore sur tous les nœuds worker au même emplacement. Dans l'exemple ci-dessus, /tmp/keystore.jks.

Notez que la connexion SSL est disponible uniquement à partir de la version 2.4 de MongoDB.

Use authentication

Si la base de données MongoDB à utiliser nécessite une authentification, cochez cette case pour activer l'authentification à la base de données.

Parmi les mécanismes listés dans la liste déroulante Authentication mechanism, le mécanisme NEGOTIATE est recommandé si vous n'utilisez pas Kerberos, car il sélectionne automatiquement le mécanisme d'authentification le plus adapté à la version de MongoDB que vous utilisez.

Pour plus d'informations concernant les autres mécanismes de la liste, consultez MongoDB Authentication (en anglais) dans la documentation MongoDB.

Set Authentication database

Si le nom d'utilisateur ou d'utilisatrice à utiliser pour se connecter à MongoDB a été créé dans une base de données d'authentification MongoDB spécifique, cochez cette case pour saisir le nom de la base de données en question dans le champ Authentication database qui s'affiche.

Pour plus d'informations concernant la base de données d'authentification MongoDB, consultez User Authentication database (en anglais).

Username et Password

Saisissez les informations d'authentification de l'utilisateur ou de l'utilisatrice de la base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

Ces options sont disponibles lorsque la case Use authentication est cochée et que la case Use connection string est décochée.

Si le système de sécurité sélectionné dans la liste Authentication mechanism est Kerberos, saisissez les informations dans les champs suivants User principal, Realm et KDC server et non dans les champs Username et Password.

Paramètres avancés

Connection string options

Vous pouvez définir d'autres propriétés dans cette table pour la connexion à MongoDB, en plus des propriétés définies dans l'onglet Basic settings.

Par exemple, vous pouvez ajouter l'option suivante afin de spécifier une valeur de délai avant suspension pour cette connexion.
connectTimeoutMS=300000

Pour plus d'informations concernant les options que vous pouvez ajouter dans cette table, consultez Connection options (en anglais).

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

La configuration dans un composant tMongoDBConfiguration s'applique uniquement aux composants MongoDB associés, dans le même Job. Autrement dit, les composants MongoDB utilisés dans un Job enfant ou parent qui est appelé par un tRunJob ne peuvent pas réutiliser cette configuration.

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.