Répliquer un flux et trier deux flux identiques - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Le Job de ce scénario utilise des composants Pig pour gérer les noms et les états chargés d'un système HDFS donné. Il lit et réplique le flux d'entrée et trie les données des deux flux identiques, respectivement sur le nom et sur l'état, puis écrit les résultats dans ce système HDFS.

Avant de commencer à reproduire ce Job, assurez-vous de posséder les droits en lecture écriture de données dans la distribution Hadoop à utiliser et que Pig est correctement installé dans cette distribution.