Pigチェーンを介した分析対象ログファイルの読み取り - 7.2

ビッグデータジョブの例

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ

手順

  1. tPigLoadコンポーネントをダブルクリックし、[Basic settings] (基本設定)ビューを開きます。
  2. 一元管理されているHDFS接続を使用する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックして[Repository] (リポジトリー)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリーのコンテンツ)ダイアログボックスを開きます。
  3. HDFSシステムへの接続用に定義されているHDFS接続を選択し、[OK]をクリックします。

    該当するフィールドに、接続情報がすべて自動的に入力されます。

  4. [Repository] (リポジトリー)ツリービューでaccess_logの汎用スキーマを選択し、このコンポーネントにスキーマをドラッグ&ドロップして適用します。
  5. [Load function] (ファンクションのロード)リストからPigStorageを選択し、[Input file URI] (入力ファイルのURI)フィールドに前のジョブで定義したファイルパスを入力します。この例では、/user/hdp/weblog/access_log/out.logです。