Propriétés du tManagePartitions pour Apache Spark Batch - Cloud - 8.0

Traitement (Processing) (Intégration)

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Processing (Intégration)
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration)
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration)
Last publication date
2024-03-05

Ces propriétés sont utilisées pour configurer le tManagePartitions s'exécutant dans le framework de Jobs Spark Batch.

Le composant tManagePartitions Spark Batch appartient à la famille Processus en cours.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Nombre de partitions Définissez en combien de partitions vous souhaitez diviser le jeu de données d'entrée.
Partitioning strategy Sélectionnez la stratégie de partitionnement à appliquer sur le jeu de données, dans la liste déroulante :
  • Coalesce : réduit le nombre de partitions.
  • Repartition : augmente ou réduit le nombre de partitions.
  • Auto : calcule la meilleure stratégie à appliquer.
Partitioning with range Cochez cette case pour appliquer une partition sur le jeu de données, en se basant sur une plage des valeurs de colonnes. Vous devez spécifier au moins une colonne pour utiliser ce paramètre.
Use custom partitioner Cochez cette case pour utiliser un partitionner Spark à importer de l'extérieur du Studio Talend. par exemple, un partitionner développé par vos soins. Dans cette situation, vous devez fournir les informations suivantes :
  • Fully qualified class name : saisissez le nom de classe entièrement qualifié du partitionner à importer.

  • JAR name : cliquez sur le bouton [+] autant de fois que nécessaire pour ajouter le même nombre de lignes. Dans chaque ligne, cliquez sur le bouton [...] pour importer le fichier .jar contenant la classe du partitionner et ses fichiers .jar dépendants.

Ce paramètre est disponible uniquement lorsque vous sélectionnez Repartition dans la liste déroulante Partitioning strategy.

Use column(s) as key(s) for partitioning Sélectionnez la colonne à utiliser comme clé pour le partitionnement.

Ce paramètre est disponible uniquement lorsque vous sélectionnez Repartition dans la liste déroulante Partitioning strategy. Ce paramètre n'est pas disponible lorsque vous cochez la case Use a custom partitioner.

Sort within partitions Cochez cette case pour trier les enregistrements au sein de chaque partition :
  • Natural order : les clés sont triées dans leur ordre naturel, par exemple dans l'ordre alphabétique.

  • Custom comparator : cela permet d'utiliser un programme personnalisé pour trier les clés.

    Vous devez saisir le nom de classe entièrement qualifié du comparateur utilisé à importer dans le champ Fully qualified class name et ajouter les fichiers JAR à charger dans la table JAR name.

Cette fonctionnalité est utile lorsqu'une partition contient différentes valeurs clés distinctes.

Variables globales

ERROR_MESSAGE

Message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères.

Utilisation

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.