クラスターからのデータのインポート - 2.5

Talend Data Preparation の簡単な例

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation
HDFS (Hadoop File System)に保存されたデータにTalend Data Preparationインターフェイスから直接アクセスして、データセットの形でインポートします。

手順

  1. Talend Data Preparationホームページの[Datasets] (データセット)ビューで、[Add Dataset] (データセットを追加)ボタンのとなりの白い矢印をクリックします。
  2. [HDFS]を選択します。

    [Add a HDFS dataset] (HDFSデータセットの追加)フォームが開きます。

  3. [Dataset Name] (データセット名)フィールドに、データセットに付ける名前を入力します。この例では、HDFS_datasetです。
  4. [User name] (ユーザー名)フィールドに、クラスターのLinuxユーザーの名前を入力します。

    このユーザーには、インポートするファイルへの読み取り権限が必要です。

  5. この例の場合は、[Use Kerberos] (Kerberosを使用)チェックボックスを未選択のままにしておきます。

    Kerberosで認証する場合は、プリンシパルとkeytabファイルへのパスを入力します。

    keytabファイルは、Spark Job Serverによるアクセスを可能にする必要があります。

    これらのフィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定することができます。

  6. [Format] (形式)フィールドで、クラスターに保存したデータの形式を選択します。この場合は.csvです。
  7. [Path] (パス)フィールドにHadoopクラスターのファイルの完全なURLを入力します。
  8. [Add Dataset] (データセットの追加)をクリックします。

タスクの結果

クラスターから抽出されたデータがグリッド内に開かれ、プレパレーションへの作業を開始できます。

データはクラスターに保存されたままの状態であり、Talend Data Preparationはサンプルのみをオンデマンドで取得します。

これで、データセットがアプリケーションのホームページの[Datasets] (データセット)ビューに表示されるようになります。