Préparation d'un jeu de données basé HDFS - 7.3

Exemples d'utilisation de Talend Data Preparation

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2023-08-08
Lorsque vous utilisez Talend Data Preparation dans un contexte Big Data, vous pouvez accéder aux données stockés dans HDFS (Hadoop File System).

Dans cet exemple, vous travaillez pour une entreprise en ligne de streaming de vidéos. Vous récupérez des informations clients stockées dans un cluster, créez un jeu de données dans Talend Data Preparation, appliquer plusieurs étapes de préparation pour nettoyer et enrichir ces données puis les réexporter dans le cluster, avec un nouveau format.

En utilisant le service Components Catalog, les données ne sont pas stockées physiquement sur le serveur de Talend Data Preparation, elles sont récupérées à la demande depuis le cluster. Seul un échantillon est récupéré et affiché dans l'interface de Talend Data Preparation, sur lequel vous pouvez travailler.

Pour utiliser Talend Data Preparation dans un contexte Big Data, vous devez compléter ces prérequis :

  • le service Components Catalog est installé et en cours d'exécution sur une machine Windows ou Linux,
  • le Spark Job Server est installé et en cours d'exécution sur une machine Linux,
  • le Streams Runner est installé et en cours d'exécution sur une machine Linux,