HDFSベースのデータセットのプレパレーション
Talend Data Preparationをビッグデータのコンテキストで使用している場合は、HDFS (Hadoopファイルシステム)に保存されたデータにアクセスできます。
この例では、世界的なオンラインビデオストリーミング企業を取り上げます。クラスターに保存された一部の顧客情報を取得し、Talend Data Preparation内にデータセットを作成し、各種プレパレーションステップを適用することで、このデータのクレンジングや追加を行ってから、新しい形式で再びクラスターにエクスポートし戻します。
Components Catalogサービスの使用により、データは物理的にTalend Data Preparationサーバーに保存されず、クラスターからオンデマンドで取得されます。作業を進める上で、サンプルだけを取得し、Talend Data Preparationインターフェイスに表示します。
Talend Data Preparationをビッグデータのコンテキストで使用するには、次の前提条件を満たす必要があります。
- Components Catalogサービスがインストールされ、WindowsまたはLinuxマシン上で実行されている。
- Spark Job Serverがインストールされ、Linuxマシン上で実行されている。
- Streams Runnerがインストールされ、Linuxマシン上で実行されている。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。