Accéder au contenu principal

Préparation d'un jeu de données basé HDFS

Lorsque vous utilisez Talend Data Preparation dans un contexte Big Data, vous pouvez accéder aux données stockés dans HDFS (Hadoop File System).

Dans cet exemple, vous travaillez pour une entreprise en ligne de streaming de vidéos. Vous récupérez des informations clients stockées dans un cluster, créez un jeu de données dans Talend Data Preparation, appliquer plusieurs étapes de préparation pour nettoyer et enrichir ces données puis les réexporter dans le cluster, avec un nouveau format.

En utilisant le service Components Catalog, les données ne sont pas stockées physiquement sur le serveur de Talend Data Preparation, elles sont récupérées à la demande depuis le cluster. Seul un échantillon est récupéré et affiché dans l'interface de Talend Data Preparation, sur lequel vous pouvez travailler.

Pour utiliser Talend Data Preparation dans un contexte Big Data, vous devez compléter ces prérequis :

  • le service Components Catalog est installé et en cours d'exécution sur une machine Windows ou Linux,
  • le Spark Job Server est installé et en cours d'exécution sur une machine Linux,
  • le Streams Runner est installé et en cours d'exécution sur une machine Linux,

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !