http://datafu.incubator.apache.org/ - 7.2

Pig

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント > Pig
データガバナンス > サードパーティーシステム > 変換処理コンポーネント > Pig
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント > Pig

このシナリオは、ビッグデータ関連Talend製品にのみ適用されます。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、4コンポーネントジョブをデザインして、特定のHadoopクラスター上で2つの関係を集約します。

このシナリオで使用される2つの関係は、以下のサンプルデータから構成されます:
  1. Alice,turtle,17
    Alice,goldfish,17
    Alice,cat,17
    Bob,dog,18
    Bob,cat,18
    John,dog,19
    Mary,goldfish,16
    Bill,dog,20
    この関係は、ownerpetage(飼い主の年齢)という3つのカラムで構成されます。
  2. Cindy,Alice
    Mark,Alice
    Paul,Bob
    Paul,Jane
    John,Mary
    William,Bill
    この関係によって、学生の名前とそれらの友人のリストが追加されます。その中の一部は1番目の関係に表示されるペットの飼い主です。従って、この関係のスキーマにはstudentfriendという2つのカラムが含まれます。

このシナリオに沿って作業をする前に、使用するHadoopクラスターのHDFSシステム内にサンプルデータを書き込む必要があります。そうするには、tHDFSOutputを使えます。

このシナリオで使用されるデータは、GROUP演算子とCOGROUP演算子について説明するためにPigのドキュメンテーションで使われる例を参考にしています。関連情報は、Pigに関するApacheのドキュメンテーションをご覧ください。