Configurer les opérations de jointure - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Du côté de l'entrée, vous pouvez afficher le panneau utilisé pour les paramètres de jointure en cliquant sur l'icône de la table.

Propriétés du flux Lookup

Valeur

Join Model

  • Inner Join ;

  • Left Outer Join ;

  • Right Outer Join ;

  • Full Outer Join.

L'option de jointure par défaut est Left Outer Join lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options effectuent une jointure de deux flux ou plus, selon la valeur des champs communs.

Lorsque plusieurs tables de référence (lookup) nécessitent une jointure, le flux d'entrée principal active la jointure à partir du premier flux Lookup et utilise le résultat pour effectuer une jointure sur la deuxième, etc, de la même manière, jusqu'à ce que le dernier flux Lookup ait une jointure.

Join Optimization

  • None

  • Replicated ;

  • Skewed ;

  • Merge.

L'option de jointure par défaut est None lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options sont utilisées pour effectuer des opérations de jointure plus efficaces. Par exemple, si vous utilisez le parallélisme des différentes tâches Reduce, la jointure Skewed peut être utilisée pour rééquilibrer les données à traiter, si elles sont réparties de manière asymétrique.

Chacune de ces options est sujette aux contraintes présentées dans la documentation Apache concernant Pig Latin.

Custom Partitioner

Saisissez le Partitioner Hadoop à utiliser pour contrôler le partitionnement des clés des map-sorties intermédiaires. Par exemple, saisissez entre guillemets :
org.apache.pig.test.utils.SimpleCustomPartitioner
pour utiliser le Partitioner SimpleCustomPartitioner. Le fichier Jar de ce Partitioner doit avoir été enregistré dans la table Register jar dans la vue Advanced settings du composant tPigLoad lié au tPigMap à utiliser.

Pour plus d'informations concernant le code de ce SimpleCustomPartitioner, consultez la documentation Apache concernant Pig Latin.

Increase Parallelism

Saisissez le nombre de tâches Reduce pour les Jobs Hadoop MapReduce générés par Pig. Pour plus d'informations concernant les fonctionnalités de parallélisation, consultez la documentation Apache concernant Pig Latin (en anglais).