ログファイルの分析と結果の保存 - 7.2

ビッグデータジョブの例

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ

手順

  1. tPigFilterRowコンポーネントの[Basic settings] (基本設定)ビューで、[+]ボタンをクリックして[Filter configuration] (フィルターの設定)テーブルに行を追加し、404というコードを持つレコードを削除し、残りのレコードを出力フローに渡すためのフィルターパラメーターを設定します。
    1. [Logical] (論理)フィールドで、[AND]を選択します。
    2. [Column] (カラム)フィールドで、スキーマのcodeカラムを選択します。
    3. [NOT]チェックボックスをオンにします。
    4. [Operator] (オペレーター)フィールドで、[equal] (と等しい)を選択します。
    5. [Value] (値)フィールドに、404と入力します。
  2. tPigFilterColumnsコンポーネントの[Basic settings] (基本設定)ビューで[...]ボタンをクリックし、[Schema] (スキーマ)ダイアログボックスを開きます。[Input] (入力)パネルでcodeカラムを選択し、矢印ボタンをクリックしてこのカラムを[Output] (出力)パネルにコピーします。これにより、codeカラムの情報が出力フローに渡されます。[OK]をクリックして出力スキーマの設定を確定し、ダイアログボックスを閉じます。
  3. tPigAggregateコンポーネントの[Basic settings] (基本設定)ビューで、[Sync columns] (カラムの同期)をクリックして先行コンポーネントからスキーマを取得し、スキーマを次のコンポーネントにプロパゲートします。
  4. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、[Schema] (スキーマ)ダイアログボックスを開いて新しいcountカラムを追加します。

    このカラムには、成功したサービス呼び出しの各コードの発生数が保存されます。

  5. 各コードの数をカウントするため、次のパラメーターを設定します。
    1. [Group by] (グループ化)エリアで[+]ボタンをクリックしてテーブルに行を追加し、[Column] (カラム)フィールドでcountカラムを選択します。
    2. [Operations] (オペレーション)エリアで[+]ボタンをクリックしてテーブルに行を追加し、[Additional Output Column] (追加の出力カラム)フィールドでcountカラムを選択します。さらに、[Function] (ファンクション)フィールドで[count] (カウント)を選択し、[Input Column] (入力カラム)codeカラムを選択します。
  6. tPigSortコンポーネントの[Basic settings] (基本設定)ビューで、渡すデータをソートするためのパラメーターを設定します。
    1. [+]ボタンをクリックして、[Sort key] (ソートキー)テーブルに行を追加します。
    2. [Column] (カラム)フィールドで[count]を選択して、countカラムをキーとして設定します。
    3. [Order] (順序)フィールドで[DESC] (降順)を選択して、データを降順でソートします。
  7. tPigStoreResultコンポーネントの[Basic settings] (基本設定)ビューで、Hadoopシステム上の指定場所に結果データをアップロードするためのコンポーネントプロパティを設定します。
    1. [Sync columns] (カラムの同期)をクリックして、先行のコンポーネントからスキーマを取得します。
    2. [Result file URI] (結果ファイルのURI)フィールドに、結果ファイルのパスを入力します。この例では、「/user/hdp/weblog/apache_code_cnt」です。
    3. [Store function] (格納関数)リストから[PigStorage]を選択します。
    4. 必要に応じて、[Remove result directory if exists] (結果ディレクトリーがある場合は削除する)チェックボックスをオンにします。
  8. このコンポーネントのスキーマを汎用スキーマとして[Repository] (リポジトリー)に保存します。これで、ジョブの設定で再利用できるようアクセスログファイルのスキーマを一元管理で行ったように、このスキーマを最後のジョブでも再利用できるようになります。この汎用スキーマにcode_countという名前を付けます。
  9. この手順では、5番目のジョブであるE_Pig_Count_IPsを設定し、前のジョブと同じようなPigチェーンを使って、アップロードしたアクセスログファイルを分析し、成功したサービス呼び出しのIPアドレスとWebサイトの閲覧回数をカウントします。前のジョブのコンポーネント設定に次の変更を加えます。
    1. tPigFilterColumnsコンポーネントの[Schema] (スキーマ)ダイアログボックスで、codeではなくhostカラムを[Input] (入力)パネルから[Output] (出力)パネルにコピーします。
    2. tPigAggregateコンポーネントで、[Group by] (グループ化)テーブルの[Column] (カラム)フィールド、および[Operations] (オペレーション)テーブルの[Input Column] (入力カラム)フィールドで、hostカラムをそれぞれ選択します。
    3. tPigStoreResultコンポーネントで、[Result file URI](結果ファイルのURI)フィールドに/user/hdp/weblog/apache_ip_cntと入力します。
    4. tPigStoreResultコンポーネントのスキーマをip_countという名前の汎用スキーマとして[Repository] (リポジトリー)に保存します。これで、このスキーマを最後のジョブでも再利用できるようになります。
    5. このコンポーネントの設定が終わったら、Ctrl+Sを押してジョブの設定を保存します。