メイン コンテンツをスキップする

HDFSベースのデータセットのプレパレーション

Talend Data Preparationをビッグデータのコンテキストで使用している場合は、HDFS (Hadoopファイルシステム)に保存されたデータにアクセスできます。

この例では、世界的なオンラインビデオストリーミング企業を取り上げます。クラスターに保存された一部の顧客情報を取得し、Talend Data Preparation内にデータセットを作成し、各種プレパレーションステップを適用することで、このデータのクレンジングや追加を行ってから、新しい形式で再びクラスターにエクスポートし戻します。

Components Catalogサービスの使用により、データは物理的にTalend Data Preparationサーバーに保存されず、クラスターからオンデマンドで取得されます。作業を進める上で、サンプルだけを取得し、Talend Data Preparationインターフェイスに表示します。

Talend Data Preparationをビッグデータのコンテキストで使用するには、次の前提条件を満たす必要があります。

  • Components Catalogサービスがインストールされ、WindowsまたはLinuxマシン上で実行されている。
  • Spark Job Serverがインストールされ、Linuxマシン上で実行されている。
  • Streams Runnerがインストールされ、Linuxマシン上で実行されている。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。