HDFSからのデータセットの追加 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation
HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートすることができます。

手順

  1. Talend Data Preparationホームページの[Data Sets](データセット)ビューで、[Add Dataset] (データセットを追加)ボタンのとなりの白い矢印をクリックします。
  2. [HDFS]を選択します。

    [Add an HDFS dataset] (HDFSデータセットの追加)フォームが開きます。

  3. [Dataset name] (データセット名)フィールドに、データセットに付ける名前を入力します。
  4. [User name] (ユーザー名)フィールドにLinuxユーザー名を入力します。

    このユーザーには、インポートするファイルへの読み取り権限が必要です。

  5. Kerberos認証を有効にする場合は、[Use Kerberos] (Kerberos認証を使用)チェックボックスを選択します。
  6. [Principal] (プリンシパル)フィールドにサービスプリンシパルの名前を入力します。
  7. [Keytab file] (Keytabファイル)フィールドにKeytabファイルの場所を入力します。

    keytabファイルは、Sparkジョブサーバーによるアクセスを可能にする必要があります。

    これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定することができます。

  8. [Format] (形式)フィールドで、インポートするファイルに対応する形式を選択します。

    HDFSファイルの場合、Talend Data PreparationではCSVAVROPARQUETがサポートされます。

    CSVを選択する場合は、インポートするファイルで使われているレコード区切り記号とフィールド区切り記号を選択します。

  9. [Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
  10. [Add Dataset] (データセットの追加)ボタンをクリックします。

タスクの結果

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。