Configurer les opérations de jointure - 6.4

Talend Open Studio for Big Data Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Du côté de l'entrée, vous pouvez afficher le panneau utilisé pour les paramètres de jointure en cliquant sur l'icône de la table.

Propriétés du flux Lookup

Valeur

Join Model

Inner Join ;

Left Outer Join ;

Right Outer Join ;

Full Outer Join.

L'option de jointure par défaut est Left Outer Join lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options effectuent une jointure de deux flux ou plus, selon la valeur des champs communs.

Lorsque plusieurs tables de référence (lookup) nécessitent une jointure, le flux d'entrée principal active la jointure à partir du premier flux Lookup et utilise le résultat pour effectuer une jointure sur la deuxième, etc, de la même manière, jusqu'à ce que le dernier flux Lookup ait une jointure.

Join Optimization

None ;

Replicated ;

Skewed ;

Merge.

L'option de jointure par défaut est None lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options sont utilisées pour effectuer des opérations de jointure plus efficaces. Par exemple, si vous utilisez le parallélisme des différentes tâches Reduce, la jointure Skewed peut être utilisée pour rééquilibrer les données à traiter, si elles sont réparties de manière asymétrique.

Chacune de ces options est sujette aux contraintes présentées dans la documentation Apache concernant Pig Latin.

Custom Partitioner

Saisissez le nom du Partitioner Hadoop à utiliser pour contrôler le partitionnement des clés des map-sorties intermédiaires. Par exemple, saisissez, entre guillemets doubles,

org.apache.pig.test.utils.SimpleCustomPartitioner

pour utiliser le Partitioner SimpleCustomPartitioner. Le fichier Jar de ce Partitioner doit avoir été enregistré dans la table Register jar dans la vue Advanced settings du composant tPigLoad lié au tPigMap à utiliser.

Pour plus d'informations concernant le code de ce SimpleCustomPartitioner, consultez la documentation Apache concernant Pig Latin.

Increase Parallelism

Saisissez le nombre de tâches Reduce pour les Jobs Hadoop MapReduce générés par Pig. Pour plus d'informations concernant les fonctionnalités de parallélisation, consultez la documentation Apache concernant Pig Latin.