メイン コンテンツをスキップする 補完的コンテンツへスキップ

クラスターからのデータのインポート

HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートします。

手順

  1. ホームページの[Datasets] (データセット)Talend Data Preparationビューで、[Add Dataset] (データセットを追加)ボタンの横にある白い矢印をクリックします。
  2. [HDFS]を選択します。

    [Add a HDFS dataset] (HDFSデータセットの追加)フォームが開きます。

  3. [Dataset Name] (データセット名)フィールドに、データセットに付ける名前を入力します。この例では、HDFS_datasetです。
  4. [User name] (ユーザー名)フィールドに、クラスターのLinuxユーザーの名前を入力します。

    このユーザーには、インポートするファイルへの読み取り権限が必要です。

  5. この例の場合は、[Use Kerberos] (Kerberosを使用)チェックボックスを未選択のままにしておきます。

    Kerberosで認証する場合は、プリンシパルとkeytabファイルへのパスを入力します。

    keytabファイルはSpark Job Serverによってアクセス可能でなければなりません。

    これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定できます。

  6. [Format] (形式)フィールドで、クラスターに保存したデータの形式を選択します。この場合は.csvです。
  7. [Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
  8. [Add dataset] (データセットを追加)をクリックします。

タスクの結果

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。