最後のジョブを設定する - 7.0

ビッグデータジョブのサンプル

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ
この手順では、Hadoopから結果データを読み取って標準システムコンソールに表示する、最後のジョブのF_Read_Resultsを設定します。

手順

  1. 1つ目のtHDFSInputコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  2. 一元管理されているHDFS接続を使用する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックして[Repository] (リポジトリー)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリーのコンテンツ)ダイアログボックスを開きます。
  3. HDFSシステムへの接続用に定義されているHDFS接続を選択し、[OK]をクリックします。

    該当するフィールドに、接続情報がすべて自動的に入力されます。

  4. 汎用スキーマのip_countをこのコンポーネントに適用します。このスキーマには、host (String型、50文字)とcount (Integer型、5桁)の2つのカラムがあります。
  5. [File Name] (ファイル名)フィールドに、HDFSでの結果ファイルのパスを入力します。この例では、「/user/hdp/weblog/apache_ip_cnt/part-r-00000」です。
  6. [Type] (タイプ)リストで、読み取るファイルのタイプを選択します。この例では、[Text File] (テキストファイル)を選択します。
  7. tLogRowコンポーネントの[Basic settings] (基本設定)ビューで、読みやすくする目的で[Table] (テーブル)オプションを選択します。
  8. もう一つのサブジョブも同様に設定します。ただし、2つ目のtHDFSInputコンポーネントは次のように設定します。
    1. code_countという汎用スキーマを適用するか、code (Integer型、5桁)とcount (Integer型、5桁)の2つのカラムを持つスキーマをこのコンポーネントに手動で設定します。
    2. [File Name] (ファイル名)フィールドに「/user/hdp/weblog/apache_code_cnt/part-r-00000」と入力します。
  9. このコンポーネントの設定が終わったら、Ctrl+Sを押してジョブの設定を保存します。