手順
-
Talend Studioの[Integration] (インテグレーション)パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のジョブを作成し、Replicateといった名前を付けます。
ジョブを作成する方法の詳細は、Talend Studioユーザーガイドを参照してください。
-
ワークスペース内にtPigLoad、tPigReplicate、2つのtPigSort、2つのtPigStoreResultをドロップします。
tPigLoadコンポーネントは特定のHDFSシステムからデータを読み取ります。このシナリオで使用するサンプルデータは、以下のように読み取られます:
Andrew Kennedy;Mississippi Benjamin Carter;Louisiana Benjamin Monroe;West Virginia Bill Harrison;Tennessee Calvin Grant;Virginia Chester Harrison;Rhode Island Chester Hoover;Kansas Chester Kennedy;Maryland Chester Polk;Indiana Dwight Nixon;Nevada Dwight Roosevelt;Mississippi Franklin Grant;Nebraska
このシナリオでは、データのロケーションは/user/ychen/raw/Name&State.csvとなります。 - [Row] (行) > [Pig Combine] (Pigの結合)リンクを使用してこれらを接続します。