メイン コンテンツをスキップする 補完的コンテンツへスキップ

HDFS接続でビッグデータバッチジョブを作成

Hadoopクラスターとストラクチャーを作成した後は、tHDFSConfigurationtHMapInputtLogRowという3つのコンポーネントを含んでいるビッグデータバッチジョブをデザインします。

手順

  1. Integrationパースペクティブを開き、[Repository] (リポジトリー) > [Job Designs] (ジョブデザイン)に移動します。
  2. [Big Data Batch] (ビッグデータバッチ)を右クリックし、[Create Big Data Batch Job] (ビッグデータバッチジョブを作成)を選択します。
  3. ジョブの作成に必要となる詳細を入力します。
  4. 作成したHadoopクラスターメタデータをジョブデザインにドラッグし、tHDFSConfigurationコンポーネントを選択します。
  5. tHMapInputtLogRowを追加し、[Row] (行) > [Main] (メイン)接続を使ってこれらのコンポーネントを接続します。
    1. 出力名を入力するよう求められたら、Outputと入力します。
  6. tLogRowをダブルクリックしてそのスキーマを定義します:
    1. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
    2. [Output (Input)] (出力(入力))セクションで、[ + ]をクリックしてカラムを3つ追加してそれぞれfirstNamelastNameageという名前を付けます。
    3. ボタンをクリックし、この3つのカラムを[tLogRow_1 (Output)] (tLogRow_1 (出力))にコピーします。
  7. tHMapInputをクリックし、[Basic Settings] (基本設定)タブを開きます。
    1. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、tHDFSConfigurationコンポーネントを選択されたストレージとして選択します。
    2. [Input] (入力)フィールドで入力ファイルを指定します。
    3. [Configure Component] (コンポーネントの設定)の横にある[…]ボタンをクリックし、先ほど作成したストラクチャーを選択します。
    4. [Input Representation] (入力表記)ドロップダウンリストで[CSV]を選択します。
    5. [Next] (]次へ)をクリックして[Sample File] (サンプルファイル)フィールドに入力ファイルを追加し、[Run] (実行)をクリックして検出されたレコード数を確認します。
    6. [Finish] (終了)をクリックします。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。