HDFS接続でビッグデータバッチジョブを作成

Hadoopクラスターとストラクチャーを作成した後は、tHDFSConfiguration、tHMapInput、tLogRowという3つのコンポーネントを含んでいるビッグデータバッチジョブをデザインします。

手順

Integrationパースペクティブを開き、[Repository] (リポジトリー) > [Job Designs] (ジョブデザイン)に移動します。
[Big Data Batch] (ビッグデータバッチ)を右クリックし、[Create Big Data Batch Job] (ビッグデータバッチジョブを作成)を選択します。
ジョブの作成に必要となる詳細を入力します。
作成したHadoopクラスターメタデータをジョブデザインにドラッグし、tHDFSConfigurationコンポーネントを選択します。
tHMapInputとtLogRowを追加し、[Row] (行) > [Main] (メイン)接続を使ってこれらのコンポーネントを接続します。
1. 出力名を入力するよう求められたら、Outputと入力します。
tLogRowをダブルクリックしてそのスキーマを定義します:
1. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
2. [Output (Input)] (出力(入力))セクションで、[ + ]をクリックしてカラムを3つ追加してそれぞれfirstName、lastName、ageという名前を付けます。
3. ボタンをクリックし、この3つのカラムを[tLogRow_1 (Output)] (tLogRow_1 (出力))にコピーします。
tHMapInputをクリックし、[Basic Settings] (基本設定)タブを開きます。
1. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにし、tHDFSConfigurationコンポーネントを選択されたストレージとして選択します。
2. [Input] (入力)フィールドで入力ファイルを指定します。
3. [Configure Component] (コンポーネントの設定)の横にある[…]ボタンをクリックし、先ほど作成したストラクチャーを選択します。
4. [Input Representation] (入力表記)ドロップダウンリストで[CSV]を選択します。
5. [Next] (]次へ)をクリックして[Sample File] (サンプルファイル)フィールドに入力ファイルを追加し、[Run] (実行)をクリックして検出されたレコード数を確認します。
6. [Finish] (終了)をクリックします。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください