Hadoopを使用したWebトラフィック情報の収集 - 7.2

ビッグデータジョブの例

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ
顧客やユーザーの嗜好やプロファイルに基づいて、ターゲットを絞ったマーケティングキャンペーンを実施するため、ユーザーがあなたのWebサイトでどのような嗜好や行動を示しているかに関するデータをフェッチしてユーザーごとのプロファイルを作成し、それぞれのユーザーに合った広告を送ることができます。

Talend Studioに付属しているビッグデータデモプロジェクトのApacheWebLogフォルダーには、Apache HTTPサーバーへのアクセスログファイルの膨大なレコードの中から、Webサイトを最も頻繁に訪れたユーザーのIPアドレスを抜き出し、それらのユーザーのWebサイトでの行動をさらに詳しく分析する例が含まれています。このセクションでは、この例を実装するジョブの作成・設定方法について説明します。ビッグデータデモプロジェクトの詳細は、入門ガイドを参照してください。

この例に従ってジョブを作成する前に、次の作業を行う必要があります。
  • デモプロジェクトをインポートし、この例で使用する入力アクセスログファイルを取得するために、デモプロジェクトに付属しているGenerateWebLogFileというジョブを実行します。

  • デモプロジェクトのベースになっているHortonworks Sandbox仮想アプライアンスをインストールして起動させます。詳細は、入門ガイドを参照してください。

  • hostsファイルにホスト名のマッピングエントリーへのIPを追加します。これは、「sandbox」というホスト名を解決するためです。

この例では、Talendの特定のビッグデータコンポーネントを使用することにより、ビッグデータ処理に適しているHadoopオープンソースプラットフォームのメリットを活用しています。このシナリオでは、次の6つのジョブを使用します。
  • 最初のジョブでは、HDFSにHCatalogデータベース、テーブル、パーティションをセットアップします。

  • 2番目のジョブでは、HDFSファイルシステムに分析対象のアクセスログファイルをアップロードします。

  • 3番目のジョブでは、HCatalogデータベースに接続し、アップロードしたファイルの内容をコンソールに表示します。

  • 4番目のジョブでは、"404"エラーのレコードの削除、Webサイトでサービスを正しく呼び出したコード数のカウント、結果データのソートとHDFSファイルシステムへの保存を含む、アップロードしたアクセスログファイルに対する解析を行います。

  • 5番目のジョブでは、"404"エラーのレコードの削除、Webサイトでサービスを正しく呼び出したIPアドレス数のカウント、結果データのソートとHDFSファイルシステムへの保存を含む、アップロードしたアクセスログファイルに対する解析を行います。

  • 最後のジョブでは、結果データをHDFSから読み込んで、サービスを正しく呼び出したIPアドレスとWebサイトの閲覧回数を標準システムコンソールに表示します。