Talend Data Preparationをビッグデータのコンテキストで使用している場合は、HDFS (Hadoopファイルシステム)に保存されたデータにアクセスできます。
この例では、世界的なオンラインビデオストリーミング企業を取り上げます。クラスターに保存された一部の顧客情報を取得し、Talend Data Preparation内にデータセットを作成し、各種プレパレーションステップを適用することで、このデータのクレンジングや追加を行ってから、新しい形式で再びクラスターにエクスポートし戻します。
コンポーネントカタログサービスの使用により、データは物理的にTalend Data Preparationサーバーに保存されず、クラスターからオンデマンドで取得されます。作業を進める上で、サンプルだけを取得し、Talend Data Preparationインターフェイスに表示します。
Talend Data Preparationをビッグデータのコンテキストで使用するには、次の前提条件を満たす必要があります。
- コンポーネントカタログサービスがインストールされ、WindowsまたはLinuxマシン上で実行されている。
- Sparkジョブサーバーがインストールされ、Linuxマシン上で実行されている。
- Streams Runnerがインストールされ、Linuxマシン上で実行されている。