HDFSベースのデータセットのプレパレーション - 2.5

Talend Data Preparation の簡単な例

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation
Talend Data Preparationをビッグデータのコンテキストで使用している場合は、HDFS (Hadoopファイルシステム)に保存されたデータにアクセスできます。

この例では、世界的なオンラインビデオストリーミング企業を取り上げます。クラスターに保存された一部の顧客情報を取得し、Talend Data Preparation内にデータセットを作成し、各種プレパレーションステップを適用することで、このデータのクレンジングや追加を行ってから、新しい形式で再びクラスターにエクスポートし戻します。

Components Catalogサービスの使用により、データは物理的にTalend Data Preparationサーバーに保存されず、クラスターからオンデマンドで取得されます。作業を進める上で、サンプルだけを取得し、Talend Data Preparationインターフェイスに表示します。

Talend Data Preparationをビッグデータのコンテキストで使用するには、次の前提条件を満たす必要があります。

  • Components Catalogサービスがインストールされ、WindowsまたはLinuxマシン上で実行されている。
  • Spark Job Serverがインストールされ、Linuxマシン上で実行されている。
  • Streams Runnerがインストールされ、Linuxマシン上で実行されている。