Préparation d'un jeu de données basé HDFS

Préparation d'un jeu de données basé HDFS - 7.3

Exemples d'utilisation de Talend Data Preparation

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Preparation

Content

Qualité et préparation de données > Nettoyage de données

Last publication date

2023-08-08

Lorsque vous utilisez Talend Data Preparation dans un contexte Big Data, vous pouvez accéder aux données stockés dans HDFS (Hadoop File System).

Dans cet exemple, vous travaillez pour une entreprise en ligne de streaming de vidéos. Vous récupérez des informations clients stockées dans un cluster, créez un jeu de données dans Talend Data Preparation, appliquer plusieurs étapes de préparation pour nettoyer et enrichir ces données puis les réexporter dans le cluster, avec un nouveau format.

En utilisant le service Components Catalog, les données ne sont pas stockées physiquement sur le serveur de Talend Data Preparation, elles sont récupérées à la demande depuis le cluster. Seul un échantillon est récupéré et affiché dans l'interface de Talend Data Preparation, sur lequel vous pouvez travailler.

Pour utiliser Talend Data Preparation dans un contexte Big Data, vous devez compléter ces prérequis :

le service Components Catalog est installé et en cours d'exécution sur une machine Windows ou Linux,
le Spark Job Server est installé et en cours d'exécution sur une machine Linux,
le Streams Runner est installé et en cours d'exécution sur une machine Linux,