Activer la parallélisation des flux de données - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data

Big Data Platform

Cloud API Services Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Dans le Studio Talend, paralléliser des flux de données signifie partitionner un flux de données d'entrée d'un sous-Job en processus parallèles et les exécuter simultanément, afin d'obtenir de meilleures performances. Ces processus sont toujours exécutés sur la même machine.

Notez que la fonctionnalité décrite dans cette section est uniquement disponible si vous avez souscrit à l'une des solutions Platform ou Big Data.

Vous pouvez utiliser des composants dédiés ou utiliser l'option Set parallelization dans le menu contextuel dans un Job afin d'implémenter ce type d'exécution parallèle.

Les composants dédiés sont le tPartitioner, le tCollector, le tRecollector et le tDepartitioner.

Les sections suivantes expliquent comment utiliser l'option Set parallelization ainsi que l'onglet vertical Parallelization associé à la connexion Row.

Vous pouvez activer ou désactiver la parallélisation en un clic. Le Studio Talend automatise ensuite l'implémentation à travers le Job.

Job dans l'espace de modélisation graphique.

L'implémentation de la parallélisation nécessite quatre étapes clé :

  1. Le partitionnement (Partition) : dans cette étape, le Studio Talend partitionne les enregistrements d'entrée en un nombre donné de process.
  2. La collecte (Collect) : dans cette étape, le Studio Talend collecte les process partitionnés et les envoie dans un composant donné pour traitement.
  3. Le dé-partitionnement (Departition) : dans cette étape, le Studio Talend regroupe les sorties des exécutions parallèles des process partitionnés.
  4. La re-collecte (Recollect) : dans cette étape, le Studio Talend capture les résultats des exécutions groupées et les envoie vers un composant donné.

Une fois l'implémentation automatique effectuée, vous pouvez modifier la configuration par défaut en cliquant sur la connexion correspondante entre les composants.