HCatalogへのアクセスログファイルのアップロード - 7.0

ビッグデータジョブのサンプル

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > ジョブデザイン
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > 標準ジョブ
この手順では、2つ目のジョブであるB_HCatalog_Loadを設定し、アクセスログファイルをHadoopシステムにアップロードします。

手順

  1. tApacheLogInputコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、[File Name] (ファイル名)フィールドに、アップロードするアクセスログファイルのパスを指定します。

    この例では、access_logという名前のログファイルをC:/Talend/BigDataというディレクトリに保存します。

  2. tFilterRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  3. [Logical operator used to combine conditions] (条件の結合に使用する論理演算子)リストボックスから[AND]を選択します。
  4. [+]ボタンをクリックして[Filter configuration] (フィルターの設定)テーブルに行を追加し、"301"というコードを持つレコードをリジェクトフローに送り、残りのレコードをフィルターフローに渡すためのフィルターパラメーターを設定します。
    1. [InputColumn] (入力カラム)フィールドで、スキーマのcodeカラムを選択します。
    2. [Operator] (演算子)フィールドで、[Not equal to] (次の値と等しくない)を選択します。
    3. [Value] (値)フィールドに、301と入力します。
  5. tHCatalogOutputコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  6. 一元管理されているHDFS接続を使用する場合は、[Property Type] (プロパティのタイプ)リストボックスをクリックして[Repository] (リポジトリー)を選択します。次に、[...]ボタンをクリックして[Repository Content] (リポジトリーのコンテンツ)ダイアログボックスを開きます。
  7. HCatalogデータベースへの接続用に定義されているHCatalog接続を選択し、[OK]をクリックします。

    該当するフィールドに、接続情報がすべて自動的に入力されます。

  8. [...]ボタンをクリックして、スキーマが先行のコンポーネントから正しくプロパゲートされていることを確認します。必要に応じて、[Sync columns] (カラムの同期)をクリックして、スキーマを取得します。
  9. [Action] (アクション)リストから[Create] (作成)を選択してファイルを作成します。ファイルが既存する場合は、[Overwrite] (上書き)を選択します。
  10. [Partition] (パーティション)フィールドに、パーティションの名前と値のペアを二重引用符で囲んで入力します。この例では、ipaddresses='192.168.1.15'と入力します。
  11. [File location] (ファイルの場所)フィールドに、データを保存する場所のパスを入力します。この例では、「/user/hdp/weblog/access_log」とします。
  12. tLogRowコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、[Vertical] (縦)オプションを選択して、出力コンテンツを読みやすくするために各行をリストに表示します。
  13. このコンポーネントの設定が終わったら、Ctrl+Sを押してジョブの設定を保存します。