Architecture de Talend Data Preparation - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Ce diagramme d'architecture identifie les blocs fonctionnels de Talend Data Preparation, ainsi que les interactions entre ces blocs.

Cinq blocs fonctionnels différents sont définis :

  • Le bloc Clients, avec un navigateur Web et un Studio Talend.

    Depuis le navigateur Web, vous pouvez accéder à l'application Web Talend Data Preparation. C'est ici que vous importez vos données, à partir de fichiers locaux ou d'autres sources et que vous nettoyez ou enrichissez ces données en créant des préparations sur celles-ci. De plus, vous pouvez accéder, de manière facultative, au serveur de Talend Dictionary Service afin d'ajouter, supprimer ou modifier les types sémantiques utilisés sur les données dans l'application Web. Pour plus d'informations, consultez Enrichissement des bibliothèques de types sémantiques via l'interface.

    Dans Studio Talend, vous pouvez tirer parti des fonctionnalités de Talend Data Preparation en utilisant les composants tDatasetInput, tDatasetOutput et tDataprepRun. Vous pouvez créer des jeux de données à partir de différentes bases de données et les exporter dans Talend Data Preparation, ou utiliser une préparation existante directement dans un Job d'intégration de données ou dans un Job Spark.

  • Le bloc Servers comprend le serveur d'application de Talend Data Preparation, connecté à Talend Administration Center et, de manière facultative, les serveurs Talend Dictionary Service et Streams Runner. Ce bloc inclut également un serveur Kafka utilisé pour le messaging interne entre Talend Data Preparation et Talend Dictionary Service. Le serveur Talend Identity and Access Management permet d'activer l'authentification unique.

    Talend Administration Center permet aux administrateurs de gérer les licences, les utilisateurs et les rôles. Assigner un ou plusieurs rôles prédéfinis à des utilisateurs leur donne des droits spécifiques pour accéder à ou effectuer des actions dans Talend Data Preparation. De là, il est également possible d'exécuter des Jobs créés dans le Studio Talend et de récupérer un jeu de données directement dans Talend Data Preparation, via l'utilisation de la fonctionnalité "Live dataset" (jeu de données en temps réel).

    Dans un contexte Big Data, le service Streams Runner est utilisé, de manière facultative, pour déclencher l'accès au Spark Job Server et au cluster Hadoop, afin d'importer des jeux de données du cluster et d'exécuter des préparations directement sur ce framework.

    Vous pouvez, de manière facultative, utiliser Talend Dictionary Service pour ajouter, supprimer ou modifier les catégories sémantiques appliquées à chaque colonne de vos données, lorsqu'elles sont ouvertes dans Talend Data Preparation.

  • Le bloc Databases contient les bases de données utilisées avec Talend Administration Center, ainsi qu'une base de données MongoDB.

    La base de données d'administration est utilisée pour gérer les comptes et droits des utilisateurs. La base de données d'audit est utilisée pour évaluer les différents aspects des Jobs implémentés dans le Studio Talend. La base de données de monitoring est utilisée pour monitorer l'exécution des processus techniques et des appels de services.

    La base de données MongoDB est utilisée pour stockée tous vos jeux de données et préparations, ainsi que les types sémantiques utilisés pour valider vos données dans l'application. Rien n'est directement sauvegardé sur votre ordinateur.
  • Le bloc Execution server comprend un Spark Job Server utilisé pour gérer les exports effectués sur le cluster Hadoop, et le Components Catalog.

    Grâce au service Components Catalog, vous pouvez importer des données stockées dans différents types de bases de données et créer un jeu de données directement dans Talend Data Preparation.

  • Le bloc Hadoop cluster vous permet de traiter les préparations effectuées sur les données et importées depuis HDFS ou JDBC lors de l'utilisation de Talend Data Preparation dans un contexte Big Data.