Préparation d'un jeu de données basé HDFS

Exemples d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.3
2.0
EnrichProdName
Talend Data Preparation
Talend Real-Time Big Data Platform
Talend Big Data
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend ESB
Talend Data Fabric
Talend Data Integration
Talend Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Lorsque vous utilisez Talend Data Preparation dans un contexte Big Data, vous pouvez accéder aux données stockés dans HDFS (Hadoop File System).

Dans cet exemple, vous travaillez pour une entreprise en ligne de streaming de vidéos. Vous récupérez des informations clients stockées dans un cluster, créez un jeu de données dans Talend Data Preparation, appliquer plusieurs étapes de préparation pour nettoyer et enrichir ces données puis les réexporter dans le cluster, avec un nouveau format.

En utilisant le service Components Catalog, les données ne sont pas stockées physiquement sur le serveur de Talend Data Preparation, elles sont récupérées à la demande depuis le cluster. Seul un échantillon est récupéré et affiché dans l'interface de Talend Data Preparation, sur lequel vous pouvez travailler.

Pour utiliser Talend Data Preparation dans un contexte Big Data, vous devez compléter ces prérequis :

  • le service Components Catalog est installé et en cours d'exécution sur une machine Windows ou Linux,
  • le Spark Job Server est installé et en cours d'exécution sur une machine Linux,
  • le Streams Runner est installé et en cours d'exécution sur une machine Linux.