このシナリオは、ビッグデータ関連Talend製品にのみ適用されます。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。
このシナリオでは、4コンポーネントジョブをデザインして、特定のHadoopクラスター上で2つの関係を集約します。
このシナリオで使用される2つの関係は、以下のサンプルデータから構成されます:
-
この関係は、owner、pet、age(飼い主の年齢)という3つのカラムで構成されます。Alice,turtle,17 Alice,goldfish,17 Alice,cat,17 Bob,dog,18 Bob,cat,18 John,dog,19 Mary,goldfish,16 Bill,dog,20
-
この関係によって、学生の名前とそれらの友人のリストが追加されます。その中の一部は1番目の関係に表示されるペットの飼い主です。従って、この関係のスキーマにはstudentとfriendという2つのカラムが含まれます。Cindy,Alice Mark,Alice Paul,Bob Paul,Jane John,Mary William,Bill
このシナリオに沿って作業をする前に、使用するHadoopクラスターのHDFSシステム内にサンプルデータを書き込む必要があります。そうするには、tHDFSOutputを使えます。
このシナリオで使用されるデータは、GROUP演算子とCOGROUP演算子について説明するためにPigのドキュメンテーションで使われる例を参考にしています。関連情報は、Pigに関するApacheのドキュメンテーションをご覧ください。