Paramètres de mapping facultatifs - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend
Du côté de l'entrée :

Propriétés du flux de référence (Lookup)

Valeur

Join Model

Inner Join ;

Left Outer Join ;

Right Outer Join ;

Full Outer Join.

L'option de jointure par défaut est Left Outer Join lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options effectuent une jointure de deux flux ou plus, selon la valeur des champs communs.

Lorsque plusieurs tables de référence (lookup) nécessitent une jointure, le flux d'entrée principal active la jointure à partir du premier flux Lookup et utilise le résultat pour effectuer une jointure sur la deuxième, etc, de la même manière, jusqu'à ce que le dernier flux Lookup ait une jointure.

Join Optimization

None ;

Replicated ;

Skewed ;

Merge.

L'option de jointure par défaut est None lorsque vous n'activez pas les paramètres des options en affichant le panneau. Ces options sont utilisées pour effectuer des opérations de jointure plus efficaces. Par exemple, si vous utilisez le parallélisme des différentes tâches Reduce, la jointure Skewed peut être utilisée pour rééquilibrer les données à traiter, si elles sont réparties de manière asymétrique.

Chacune de ces options est sujette aux contraintes présentées dans la documentation Apache concernant Pig Latin.

Custom Partitioner

Saisissez le Partitioner Hadoop à utiliser pour contrôler le partitionnement des clés des map-sorties intermédiaires. Par exemple, saisissez entre guillemets :
org.apache.pig.test.utils.SimpleCustomPartitioner
pour utiliser le Partitioner SimpleCustomPatitioner.

Pour plus d'informations concernant le code de ce SimpleCustomPatitioner, consultez le manuel de référence de Pig Latin. Le fichier Jar de ce Partitioner doit avoir été enregistré dans la table Register jar dans la vue Advanced settings du composant tPigLoad lié au tPigMap à utiliser.

Increase Parallelism

Saisissez le nombre de tâches Reduce. Pour plus d'informations concernant les fonctionnalités de parallélisation, consultez le manuel de référence de Pig Latin.

Du côté de la sortie :

Propriétés du flux de sortie

Valeur

Catch Output Reject

True ;

False.

Cette option, une fois activée, vous permet de capturer les enregistrements rejetés par un filtre que vous pouvez définir dans la zone appropriée.

Catch Lookup Inner Join Reject

True ;

False.

Cette option, une fois activée, vous permet de capturer les enregistrements rejetés, par la jointure Inner Join effectuée sur les flux d'entrée.