4つ目のジョブの作成 - 7.0

ビッグデータジョブのサンプル

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ
以下の手順に従って4つ目のジョブを作成します。このジョブは、アップロードしたログファイルを分析し、Webサイトでサービスを正しく呼び出したコード数をカウントします。

手順

  1. サンプルジョブの役割と実行順序がわかるように、このジョブにD_Pig_Count_Codesという名前を付けます。
  2. [Palette] (パレット)からデザインワークスペースに次のコンポーネントをドロップします。
    • tPigLoadコンポーネント: 分析するデータをロードします。

    • tPigFilterRowコンポーネント: 入力フローから"404"エラーのレコードを削除します。

    • tPigFilterColumnsコンポーネント: 結果データに含めるカラムを選択します。

    • tPigAggregateコンポーネント: Webサイトの閲覧回数をカウントします。

    • tPigSortコンポーネント: 結果データをソートします。

    • tPigStoreResultコンポーネント: 結果をHDFSに保存します。

  3. [Row] (行) > [Pig Combine] (Pigの結合)接続を使ってこれらのコンポーネントをリンクしてPigチェーンを作成し、それぞれのコンポーネントの機能を特定するためのラベルを付けます。