クラスターからのデータのインポート

HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートします。

手順

ホームページの[Datasets] (データセット)Talend Data Preparationビューで、[Add Dataset] (データセットを追加)ボタンの横にある白い矢印をクリックします。
[HDFS]を選択します。

[Add a HDFS dataset] (HDFSデータセットの追加)フォームが開きます。
[Dataset Name] (データセット名)フィールドに、データセットに付ける名前を入力します。この例では、HDFS_datasetです。
[User name] (ユーザー名)フィールドに、クラスターのLinuxユーザーの名前を入力します。

このユーザーには、インポートするファイルへの読み取り権限が必要です。
この例の場合は、[Use Kerberos] (Kerberosを使用)チェックボックスを未選択のままにしておきます。

Kerberosで認証する場合は、プリンシパルとkeytabファイルへのパスを入力します。

keytabファイルはSpark Job Serverによってアクセス可能でなければなりません。

これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定できます。
[Format] (形式)フィールドで、クラスターに保存したデータの形式を選択します。この場合は.csvです。
[Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
[Add dataset] (データセットを追加)をクリックします。

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。