Hadoopを使用したWebトラフィック情報の収集 - 7.0

ビッグデータジョブのサンプル

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ
顧客やユーザーの嗜好やプロファイルに基づいて、ターゲットを絞ったマーケティングキャンペーンを実施するために、ユーザーがあなたのWebサイトでどのような嗜好や行動を示しているかについて、データをフェッチしてユーザーごとのプロファイルを作成し、それぞれのユーザーに合った広告を送ることができます。

Talend Studioに付属しているビッグデータデモプロジェクトのApacheWebLogフォルダーには、Apache HTTPサーバーへのアクセスログファイルの膨大なレコードの中から、Webサイトを最も頻繁に訪れたユーザーのIPアドレスを抜き出し、それらのユーザーのWebサイトでの行動をさらに詳しく分析するサンプルが含まれています。このセクションでは、このサンプルを実装するジョブの作成・設定方法について説明します。ビッグデータデモプロジェクトの詳細は、入門ガイドを参照してください。

この例に従ってジョブを作成する前に、次の作業を行う必要があります。
  • デモプロジェクトをインポートし、この例で使用する入力アクセスログファイルを取得するために、デモプロジェクトに付属しているGenerateWebLogFileというジョブを実行します。

  • デモプロジェクトのベースになっているHortonworks Sandbox仮想アプライアンスをインストールして起動させます。詳細は、入門ガイドを参照してください。

  • hostsファイルにホスト名のマッピングエントリへのIPを追加します。これは、「sandbox」というホスト名を解決するためです。

このサンプルでは、Talendの特定のビッグデータコンポーネントを使用することにより、ビッグデータ処理に適しているHadoopオープンソースプラットフォームのメリットを活用しています。このシナリオでは、次の6つのジョブを使用します。
  • 1つ目のジョブでは、HDFSにHCatalogデータベース、テーブル、パーティションをセットアップします。

  • 2つ目のジョブでは、HDFSファイルシステムに分析対象のアクセスログファイルをアップロードします。

  • 3つ目のジョブでは、HCatalogデータベースに接続し、アップロードしたファイルの内容をコンソールに表示します。

  • 4つ目のジョブでは、"404"エラーのレコードの削除、Webサイトでサービスを正しく呼び出したコード数のカウント、結果データのソートとHDFSファイルシステムへの保存を含む、アップロードしたアクセスログファイルに対する解析を行います。

  • 5つ目のジョブでは、"404"エラーのレコードの削除、Webサイトでサービスを正しく呼び出したIPアドレス数のカウント、結果データのソートとHDFSファイルシステムへの保存を含む、アップロードしたアクセスログファイルに対する解析を行います。

  • 最後のジョブでは、結果データをHDFSから読み込んで、サービスを正しく呼び出したIPアドレスとWebサイトの閲覧回数を標準システムコンソールに表示します。