Agréger des données de deux relations à l'aide d'une opération COGROUP - 7.2

Pig

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, un Job comprenant quatre composants est créé pour agréger deux relations sur un cluster Hadoop donné.

Les deux relations utilisées dans ce scénario se présentent comme suit :
  1. Alice,turtle,17
    Alice,goldfish,17
    Alice,cat,17
    Bob,dog,18
    Bob,cat,18
    John,dog,19
    Mary,goldfish,16
    Bill,dog,20
    Cette relation se compose de trois colonnes nommées owner (maître), pet (animal) et age (âge des maîtres).
  2. Cindy,Alice
    Mark,Alice
    Paul,Bob
    Paul,Jane
    John,Mary
    William,Bill
    Cette relation fournit une liste de noms d'étudiants ainsi que de leurs amis. Pour certains, la première relation est celle de propriétaires d'animaux. Le schéma de cette relation contient deux colonnes : student (étudiant) et friend (ami).

Avant de reproduire ce scénario, vous devez écrire les données d'exemple dans le système HDFS du cluster Hadoop à utiliser. Pour ce faire, vous pouvez utiliser un tHDFSOutput.

Les données utilisées dans ce scénario sont inspirées des exemples utilisés dans la documentation Pig pour expliquer les opérateurs GROUP et GOGROUP. Pour plus d'informations, consultez la documentation Apache pour Pig.