Architecture de Talend Data Preparation

Architecture de Talend Data Preparation - 7.3

Guide d'utilisation de Talend Data Preparation

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Preparation

Content

Qualité et préparation de données > Nettoyage de données

Last publication date

2023-11-29

Ce diagramme d'architecture identifie les blocs fonctionnels de Talend Data Preparation, ainsi que les interactions entre ces blocs.

Cinq blocs fonctionnels différents sont définis :

Le bloc Clients, avec un navigateur Web et un Studio Talend.

Depuis le navigateur Web, vous pouvez accéder à l'application Web Talend Data Preparation. C'est ici que vous importez vos données, à partir de fichiers locaux ou d'autres sources, et que vous nettoyez ou enrichissez ces données en créant des préparations sur celles-ci. De plus, vous pouvez accéder, de manière facultative, au serveur de Talend Dictionary Service afin d'ajouter, supprimer ou modifier les types sémantiques utilisés sur les données dans l'application Web. Pour plus d'informations, consultez Enrichissement des bibliothèques de types sémantiques.

Dans le Studio Talend, vous pouvez tirer parti des fonctionnalités de Talend Data Preparation en utilisant les composants tDatasetInput, tDatasetOutput et tDataprepRun. Vous pouvez créer des jeux de données à partir de différentes bases de données et les exporter dans Talend Data Preparation, ou utiliser une préparation existante directement dans un Job d'intégration de données ou dans un Job Spark.
Le bloc Servers comprend le serveur d'application de Talend Data Preparation, connecté à Talend Administration Center et, de manière facultative, les serveurs Talend Dictionary Service et Streams Runner. Ce bloc inclut également un serveur Kafka utilisé pour le messaging interne entre Talend Data Preparation et Talend Dictionary Service. Le Service Talend Identity et Access Management permet d'activer l'authentification unique.

Talend Administration Center permet aux administrateurs de gérer les licences, les utilisateurs et utilisatrices et les rôles. attribuer un ou plusieurs rôles prédéfinis à des utilisateurs et des utilisatrices leur donne des droits spécifiques pour accéder à Talend Data Preparation ou effectuer des actions dedans. De là, il est également possible d'exécuter des Jobs créés dans le Studio Talend et de récupérer un jeu de données directement dans Talend Data Preparation, via l'utilisation de la fonctionnalité "Live dataset" (jeu de données en temps réel).

Dans un contexte Big Data, le service Streams Runner est utilisé, de manière facultative, pour déclencher l'accès au Spark Job Server et au cluster Hadoop, afin d'importer des jeux de données du cluster et d'exécuter des préparations directement sur ce framework avec Beam.

Vous pouvez, de manière facultative, utiliser Talend Dictionary Service pour ajouter, supprimer ou modifier les catégories sémantiques appliquées à chaque colonne de vos données, lorsqu'elles sont ouvertes dans Talend Data Preparation.
Le bloc Databases contient les bases de données utilisées avec Talend Administration Center, ainsi qu'une base de données MongoDB.
La base de données d'administration est utilisée pour gérer les comptes et droits des utilisateurs et des utilisatrices. La base de données d'audit est utilisée pour évaluer les différents aspects des Jobs implémentés dans le Studio Talend. La base de données de monitoring est utilisée pour monitorer l'exécution des processus techniques et des appels de services.
La base de données MongoDB est utilisée pour stocker tous vos jeux de données et préparations, ainsi que les types sémantiques utilisés pour valider vos données dans l'application. Rien n'est directement sauvegardé sur votre ordinateur.
Le bloc Execution server comprend un Spark Job Server utilisé pour gérer les exports effectués sur le cluster Hadoop, et le Components Catalog.

Grâce au service Components Catalog, vous pouvez importer des données stockées dans différents types de bases de données et créer un jeu de données directement dans Talend Data Preparation.
Le bloc Hadoop cluster vous permet de traiter les préparations effectuées sur les données et importées depuis HDFS ou JDBC lors de l'utilisation de Talend Data Preparation dans un contexte Big Data.