Pigチェーンを介した分析対象ログファイルの読み取り - 7.0

ビッグデータジョブのサンプル

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ

手順

  1. tPigLoadコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  2. 一元管理されているHDFS接続を使用する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックして[Repository] (リポジトリ)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリのコンテンツ)ダイアログボックスを開きます。
  3. HDFSシステムへの接続用に定義されているHDFS接続を選択し、[OK]をクリックします。

    該当するフィールドに、接続情報がすべて自動的に入力されます。

  4. [Repository] (リポジトリ)ツリービューでaccess_logの汎用スキーマを選択し、このコンポーネントにスキーマをドラッグアンドドロップして適用します。
  5. [Load function] (ファンクションのロード)リストからPigStorageを選択し、[Input file URI] (入力ファイルのURI)フィールドに前のジョブで定義したファイルパスを入力します。このサンプルでは、/user/hdp/weblog/access_log/out.logです。