Ce scénario s'applique uniquement aux solutions Talend avec Big Data.
Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.
Dans ce scénario, un Job comprenant quatre composants est créé pour agréger deux relations sur un cluster Hadoop donné.
Les deux relations utilisées dans ce scénario se présentent comme suit :
-
Cette relation se compose de trois colonnes nommées owner (maître), pet (animal) et age (âge des maîtres).Alice,turtle,17 Alice,goldfish,17 Alice,cat,17 Bob,dog,18 Bob,cat,18 John,dog,19 Mary,goldfish,16 Bill,dog,20
-
Cette relation fournit une liste de noms d'étudiants ainsi que de leurs amis. Pour certains, la première relation est celle de propriétaires d'animaux. Le schéma de cette relation contient deux colonnes : student (étudiant) et friend (ami).Cindy,Alice Mark,Alice Paul,Bob Paul,Jane John,Mary William,Bill
Avant de reproduire ce scénario, vous devez écrire les données d'exemple dans le système HDFS du cluster Hadoop à utiliser. Pour ce faire, vous pouvez utiliser un tHDFSOutput.
Les données utilisées dans ce scénario sont inspirées des exemples utilisés dans la documentation Pig pour expliquer les opérateurs GROUP et GOGROUP. Pour plus d'informations, consultez la documentation Apache pour Pig.