Hadoopクラスターとストラクチャーを作成した後は、tHDFSConfiguration、tHMapInput、tLogRowという3つのコンポーネントを含んでいるビッグデータバッチジョブをデザインします。
手順
-
Integrationパースペクティブを開き、に移動します。
-
[Big Data Batch] (ビッグデータバッチ)を右クリックし、[Create Big Data Batch Job] (ビッグデータバッチジョブを作成)を選択します。
-
ジョブの作成に必要となる詳細を入力します。
-
作成したHadoopクラスターメタデータをジョブデザインにドラッグし、tHDFSConfigurationコンポーネントを選択します。
-
tHMapInputとtLogRowを追加し、接続を使ってこれらのコンポーネントを接続します。
-
出力名を入力するよう求められたら、Outputと入力します。
-
tLogRowをダブルクリックしてそのスキーマを定義します:
-
[Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
-
[Output (Input)] (出力(入力))セクションで、[ + ]をクリックしてカラムを3つ追加してそれぞれfirstName、lastName、ageという名前を付けます。
-
ボタンをクリックし、この3つのカラムを[tLogRow_1 (Output)] (tLogRow_1 (出力))にコピーします。
-
tHMapInputをクリックし、[Basic Settings] (基本設定)タブを開きます。
-
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、tHDFSConfigurationコンポーネントを選択されたストレージとして選択します。
-
[Input] (入力)フィールドで入力ファイルを指定します。
-
[Configure Component] (コンポーネントの設定)の横にある[…]ボタンをクリックし、先ほど作成したストラクチャーを選択します。
-
[Input Representation] (入力表記)ドロップダウンリストで[CSV]を選択します。
-
[Next] (]次へ)をクリックして[Sample File] (サンプルファイル)フィールドに入力ファイルを追加し、[Run] (実行)をクリックして検出されたレコード数を確認します。
-
[Finish] (終了)をクリックします。