Configurer l'étape de partitionnement - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data

Big Data Platform

Cloud API Services Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Procédure

  1. Cliquez sur le lien représentant l'étape de partitionnement pour ouvrir sa vue Component. Cliquez ensuite sur l'onglet Parallelization.
    Vue Parallelization (Parallélisation).
    L'option Partition row a été automatiquement sélectionnée dans la zone Type. Si vous sélectionnez None, vous désactivez la parallélisation du flux de données sur ce lien. Notez que selon le lien que vous configurez, une option Repartition row peut être disponible dans la zone Type afin de re-partitionner un flux de données déjà dé-partitionné.
    Dans cette vue Parallelization, vous devez définir les propriétés suivantes :
    • Number of Child Threads : le nombre de process que vous souhaitez obtenir en divisant les enregistrements d'entrée. Il est recommandé de saisir un nombre N-1 où N est le nombre total de CPU ou cœurs de la machine traitant les données.
    • Buffer Size : le nombre de lignes à mettre en cache pour chacun des process générés.
    • Use a key hash for partitions : cela vous permet d'utiliser le mode Hash pour répartir les enregistrements dans les process.

      Une fois la case cochée, la table Key Columns s'affiche. Vous pouvez y configurer les colonnes sur lesquelles appliquer le mode Hash. Vous pouvez y configurer les colonnes sur lesquelles appliquer le mode Hash.

      Si vous laissez cette case décochée le mode de répartition est Round-robin, ce qui signifie que les enregistrements sont répartis un par un dans chaque process, de manière circulaire, jusqu'à ce que le dernier enregistrement soit distribué. Ce mode ne peut garantir que les enregistrements répondant aux critères vont bien dans les mêmes process.

  2. Dans le champ Number of Child Threads, saisissez le nombre de process (threads) que vous souhaitez obtenir en divisant les enregistrements d'entrée. Dans cet exemple, saisissez 3 car quatre processeurs sont utilisés pour exécuter le Job.
  3. Si nécessaire, modifiez la valeur dans le champ Buffer Size afin d'adapter la capacité de la mémoire. Dans cet exemple, laissez la valeur par défaut.