Big Data
Big Data Platform
Cloud Big Data
Cloud Big Data Platform
Cloud Data Fabric
Data Fabric
Real-Time Big Data Platform
Pourquoi et quand exécuter cette tâche
Le Studio Talend se connecte à un cluster YARN afin d'exécuter le Job depuis ce cluster.
Complétez la configuration de la connexion à Spark Universal avec le mode Yarn cluster, sur Spark 2.4.x, 3.0.x ou 3.1.x dans l'onglet Spark configuration de la vue Run de votre Job Spark. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Procédure
- Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
-
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.Conseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
- Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Yarn cluster dans la liste déroulante Runtime mode/environment.
-
Spécifiez le chemin d'accès au fichier JAR de configuration Hadoop fournissant les paramètres de connexion au cluster YARN à utiliser : Le fichier JAR contient toutes les informations nécessaires pour établir une connexion à tous les fichiers
*-site.xml
du cluster.Le fichier JAR doit inclure les fichiers XML suivants :hdfs-site.xml
core-site.xml
:yarn-site.xml
:mapred-site.xml
Si vous utilisez des composants Hive ou HBase, le fichier JAR doit inclure, en plus et respectivement, les fichiers XML suivants :hive-site.xml
hbase-site.xml
-
Si vous devez exécuter votre Job Spark sur Windows, spécifiez l'emplacement du programme winutils.exe à utiliser :
-
Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.
-
Sinon, laissez la case Define the Hadoop home directory décochée, le Studio en génère un lui-même et l'utilise automatiquement pour ce Job.
-
-
Saisissez les informations simples de configuration :
Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système. Remarque :- Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
- Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) : - Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
- Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.
Important : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp
pour les dates.Remarque : Si vous laissez cette case décochée,java.sql.Timestamp
oujava.sql.Date
peut être utilisé, selon le modèle. - Dans le champ Spark "scratch" directory, saisissez le nom du répertoire dans lequel le Studio stocke les fichiers temporaires dans le système de fichiers local, par exemple les fichiers JAR à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, ce répertoire est C:/tmp.
- S'il vous faut un Job résistant aux échecs, cochez la case Activate checkpointing pour activer l'opération de points de contrôle Spark. Dans le champ Checkpoint directory, saisissez le chemin du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données contextuelles des calculs, comme les métadonnées et les RDD générés par ce calcul.
- Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.