Agréger des données de deux relations à l'aide d'une opération COGROUP - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, un Job comprenant quatre composants est créé pour agréger deux relations sur un cluster Hadoop donné.

Les deux relations utilisées dans ce scénario se présentent comme suit :
  1. Alice,turtle,17
    Alice,goldfish,17
    Alice,cat,17
    Bob,dog,18
    Bob,cat,18
    John,dog,19
    Mary,goldfish,16
    Bill,dog,20
    Cette relation se compose de trois colonnes nommées owner (maître), pet (animal) et age (âge des maîtres).
  2. Cindy,Alice
    Mark,Alice
    Paul,Bob
    Paul,Jane
    John,Mary
    William,Bill
    Cette relation fournit une liste de noms d'étudiants ainsi que de leurs amis. Pour certains, la première relation est celle de propriétaires d'animaux. Le schéma de cette relation contient deux colonnes : student (étudiant) et friend (ami).

Avant de reproduire ce scénario, vous devez écrire les données d'exemple dans le système HDFS du cluster Hadoop à utiliser. Pour ce faire, vous pouvez utiliser un tHDFSOutput. Pour plus d'informations concernant ce composant, consultez tHDFSOutput.

Les données utilisées dans ce scénario sont inspirées des exemples utilisés dans la documentation Pig pour expliquer les opérateurs GROUP et GOGROUP. Pour plus d'informations, consultez la documentation Apache pour Pig.