メイン コンテンツをスキップする 補完的コンテンツへスキップ

メタデータを使ってHDFSからデータを読み取り

tHDFSInputコンポーネントを使えば、HDFSからデータを読み取れます。

始める前に

手順

  1. [Repository] (リポジトリー)[Metadata] (メタデータ) > [Hadoop Cluster] (Hadoopクラスター)を展開した後に、目的のHadoopクラスターメタデータを展開します。
    1. HDFSメタデータを[Designer] (デザイナー)にドラッグ&ドロップします。
    2. tHDFSInputコンポーネントを選択します。
  2. tHDFSInputコンポーネントをダブルクリックします。

    このコンポーネントは事前定義済みのHDFSメタデータ接続情報によって設定されています。

  3. [File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。
  4. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
  5. プラスボタンをクリックして新しいカラムを追加します。
    1. [Column] (カラム)フィールドに名前を入力します。

      1. CustomerID
      2. FirstName
      3. LastName
    2. [Types] (タイプ)カラムを選択します。

      1. CustomerIDには、Integer Typeを選択します。
      2. FirstNameLastNameには、String Typeを選択します。
    3. [OK]をクリックします。
  6. tRowGeneratorコンポーネントを右クリックします。
    1. [Trigger] (トリガー) > [On Subjob Ok] (サブジョブがOKの場合)を選択します。
    2. tHDFSInputコンポーネントをクリックし、両コンポーネントをリンクさせます。
  7. tSortRowコンポーネントを追加します。
  8. tHDFSInputコンポーネントを右クリックします。
    1. [Row] (行) > [Main] (メイン)を選択します。
    2. tSortRowコンポーネントをクリックし、両コンポーネントをリンクします。
  9. tSortRowコンポーネントをダブルクリックします。
    1. [Sync columns] (カラムを同期)をクリックします。
      tSortRowコンポーネントはtHDFSInputコンポーネントからスキーマを継承しています。
  10. プラスボタンをクリックします。
    tHDFSInputコンポーネントスキーマの最初のカラムが表示されます。
  11. tLogRowコンポーネントを追加します。
  12. tSortRowコンポーネントを右クリックします。
    1. [Row] (行) > [Main] (メイン)を選択します。
    2. tLogRowコンポーネントをクリックし、2つのコンポーネントをリンクします。
      [Designer] (デザイナー)は次のようになります。
  13. tLogRowコンポーネントをダブルクリックします。
    1. [Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。
  14. [Run] (実行)ビューで[Run] (実行)をクリックします。

タスクの結果

入力コンポーネント(tRowGeneratorコンポーネントなど)は、tHDFSOutputコンポーネントにデータを提供し、このコンポーネントによってデータがHDFSシステムに書き込まれます。この操作を完了すると、tHDFSInputコンポーネントがデータを読み取ってtSortRowコンポーネントに提供し、このコンポーネントによってデータがソートされます。tLogRowコンポーネントはHDFSでソートされたデータを表示します。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。