Activer la parallélisation des flux de données - 7.1

Guide utilisateur de Talend Data Services Platform Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
EnrichPlatform
Studio Talend

Dans le Studio Talend , paralléliser des flux de données signifie partitionner un flux de données d'entrée d'un sous-job en processus parallèles et les exécuter simultanément, afin d'obtenir de meilleures performances. Ces processus sont toujours exécutés sur la même machine.

Notez que la fonctionnalité décrite dans cette section est uniquement disponible si vous avez souscrit à l'une des solutions Platform ou Big Data.

Vous pouvez utiliser des composants dédiés ou utiliser l'option Set parallelization dans le menu contextuel dans un Job afin d'implémenter ce type d'exécution parallèle.

Les composants dédiés sont le tPartitioner, le tCollector, le tRecollector et le tDepartitioner.

Les sections suivantes expliquent comment utiliser l'option Set parallelization ainsi que l'onglet vertical Parallelization associé à la connexion Row.

Le Studio automatise ensuite l'implémentation à travers le Job.

L'implémentation de la parallélisation nécessite quatre étapes clé :

  1. Le partitionnement () : dans cette étape, le Studio partitionne les enregistrements d'entrée en un nombre donné de process.

  2. La collecte () : dans cette étape, le Studio collecte les process partitionnés et les envoie au composant pour qu'ils soient traités.

  3. Le dé-partitionnement () : dans cette étape, le Studio regroupe les sorties des exécutions parallèles des process partitionnés.

  4. La re-collecte () : dans cette étape, le Studio capture les résultats des exécutions groupées et les envoie vers un composant donné.

Une fois l'implémentation automatique effectuée, vous pouvez modifier la configuration par défaut en cliquant sur la connexion correspondante entre les composants.