Propriétés du tMongoDBConfiguration pour Apache Spark Streaming - 7.1

MongoDB

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Database > Composants MongoDB
Gouvernance de données > Systèmes tiers > Composants Database > Composants MongoDB
Qualité et préparation de données > Systèmes tiers > Composants Database > Composants MongoDB
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tMongoDBConfiguration s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tMongoDBConfiguration Spark Streaming appartient aux familles Databases et Databases NoSQL.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Property type

Peut être Built-In ou Repository.

Built-In : aucune propriété n'est stockée de manière centrale.

Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

DB Version

Sélectionnez la version de la base de données MongDB à laquelle vous connecter.

Use replica set address or multiple query routers

Cochez cette case pour afficher la table Server addresses.

Dans la table Server addresses, définissez les bases de données MongoDB shardées ou les ensembles de répliques MongoDB auxquel(le)s vous souhaitez vous connecter.

Server et Port

Saisissez l'adresse IP et le numéro du port d'écoute du serveur de la base de données.

Disponible lorsque la case Use replica set address or multiple query routers n'est pas cochée.

Database

Saisissez le nom de la base de données MongoDB à laquelle vous connecter.

Use SSL connection

Cochez cette case pour activer la connexion chiffrée SSL ou TLS.

Utilisez le composant tSetKeystore dans le même Job afin de spécifier les informations de chiffrement.

Configurez la propriété spark.executor.extraJavaOptions, dans la table Advanced properties de l'onglet Spark configuration, dans la vue Run. Par exemple :
"spark.executor.extraJavaOptions" :
"-Djavax.net.ssl.trustStorePassword
=password 
-Djavax.net.ssl.trustStore=
/tmp/keystore.jks 
-Djavax.net.ssl.trustStoreType=JKS"
Cette propriété configure les mêmes paramètres que le tSetKeystore pour les exécuteurs Spark, vous pouvez donc copier les valeurs du tSetKeystore. De plus, vous devez déployer le KeyStore sur tous les nœuds workers au même emplacement. Dans l'exemple ci-dessus, /tmp/keystore.jks.

Pour plus d'informations concernant le tSetKeystore, consultez tSetKeystore.

Notez que la connexion SSL est disponible uniquement à partir de la version 2.4 de MongoDB.

Use authentication

Si la base de données MongoDB à utiliser nécessite une authentification, cochez cette case pour activer l'authentification à la base de données.

Parmi les mécanismes listés dans la liste déroulante Authentication mechanism, le mécanisme NEGOTIATE est recommandé si vous n'utilisez pas Kerberos, car il sélectionne automatiquement le mécanisme d'authentification le plus adapté à la version de MongoDB que vous utilisez.

Pour plus d'informations concernant les autres mécanismes de la liste, consultez MongoDB Authentication (en anglais) dans la documentation MongoDB.

Set Authentication database

Si le nom d'utilisateur à utiliser pour se connecter à MongoDB a été créé dans une base de données d'authentification MongoDB spécifique, cochez cette case pour saisir le nom de la base de données en question dans le champ Authentication database qui s'affiche.

Pour plus d'informations concernant la base de données d'authentification MongoDB, consultez User Authentication database (en anglais).

Username et Password

Données d'authentification de l’utilisateur de la base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

Disponible lorsque la case Use authentication est cochée.

Si le système de sécurité sélectionné dans la liste Authentication mechanism est Kerberos, saisissez les informations dans les champs suivants User principal, Realm et KDC server et non dans les champs Username et Password.

Advanced settings

Connection string options

Vous pouvez définir d'autres propriétés dans cette table pour la connexion à MongoDB, en plus des propriétés définies dans l'onglet Basic settings.

Par exemple, vous pouvez ajouter l'option suivante afin de spécifier une valeur de délai avant suspension pour cette connexion.
connectTimeoutMS=300000

Pour plus d'informations concernant les options que vous pouvez ajouter dans cette table, consultez Connection options (en anglais).

Utilisation

Règle d'utilisation

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

La configuration dans un composant tMongoDBConfiguration s'applique uniquement aux composants MongoDB associés, dans le même Job. Autrement dit, les composants MongoDB utilisés dans un Job enfant ou parent qui est appelé par un tRunJob ne peuvent pas réutiliser cette configuration.

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.