Concepts de Talend Data Preparation - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Ces définitions vous aideront à saisir les concepts principaux de Talend Data Preparation.
  • Connection : les connexions sont des environnements ou des systèmes dans lesquels des jeux de données sont stockés, notamment de bases de données, systèmes de fichiers, systèmes ou des plateformes distribués. Les informations de connexion à ces systèmes doivent être configurées une seule fois, car elles sont réutilisables.
  • Jeu de données : un jeu de données contient les données brutes qui peuvent être utilisées comme matière première pour une ou plusieurs préparations. Il se présente sous forme de tableau sur lequel vous pouvez appliquer les étapes de votre recette sans affecter les données d'origine. Un jeu de données peut être réutilisé par plusieurs préparations.
  • Sample : vos données seront visibles sous forme d'échantillon, récupéré des métadonnées du jeu de données.
  • Préparation : une préparation fait le lien entre le jeu de données et la recette. C'est le résultat final que vous souhaitez atteindre avec vos données. Vous pouvez exporter le résultat de votre préparation en tant que fichier local, ou bien vers d'autres solutions de stockage. Une préparation applique à un jeu de données une recette pour produire un résultat. Les données d'origine ne sont jamais modifiées.
  • Recette : littéralement, une recette est définie comme "une suite d'étapes à accomplir avec une liste d'ingrédients pour concevoir ou préparer quelque chose". Dans Talend Cloud Data Preparation, les ingrédients sont vos données brutes, aussi appelés jeux de données, et les étapes sont les différentes fonctions appliquées aux jeux de données. Visuellement, la recette est formée par le séquence verticale de fonctions qui se trouve dans le panneau de gauche. Une recette est liée au jeu de données via la préparation. Chaque évolution de la recette est automatiquement enregistrée dans la préparation.
  • Fonction : une fonction est une action appliquée à une ligne, une colonne ou bien à l'ensemble de votre jeu de données, comme la suppression de lignes vides. Puisque les fonctions sont appliquées dans le contexte d'une préparation, elles ne modifient pas les données d'origine. Les fonctions que vous appliquez sont listées dans des recettes, dans l'ordre chronologique.
  • Type sémantique : le type sémantique d'une colonne ou d'un enregistrement correspond au type de données pouvant être trouvées dans ces colonnes ou enregistrements, comme des noms, des codes postaux, des numéros de téléphone, des coordonnées, etc. Les applications Talend Cloud bénéficient de fonctionnalités sémantiques, ce qui signifie que, lorsque vous regardez vos données d'échantillon, elles sont automatiquement catégorisées à l'aide des types sémantiques par défaut ou à l'aide de ceux que vous avez créés.
  • Cloud Engine for Design : le Moteur Cloud pour le design est un exécuteur built-in permettant aux utilisateurs et utilisatrices de traiter des données facilement sans avoir à configurer de moteur de traitement. Avec ce moteur, vous pouvez exécuter deux pipelines en parallèle. Pour un traitement avancé des données, il est recommandé d'installer le moteur distant Gen2.
  • Remote Engine Gen2 : un moteur distant Gen2 est un moteur d'exécution sécurisé sur lequel vous pouvez exécuter des objets en toute sécurité. Il vous permet d'avoir le contrôle sur votre environnement d'exécution et vos ressources, étant donné que vous pouvez créer et configurer le moteur dans votre propre environnement (Cloud privé virtuel ou on-premises).

    Un moteur distant permet de s'assurer :

    • que le traitement des données se fait dans un environnement sûr et sécurisé, car Talend n'a jamais accès aux données et ressources.
    • des performances et une sécurité optimales en améliorant la localité des données au lieu de déplacer des volumes importants de données pour les calculs.

Relations entre les connexions, les jeux de données et les préparations :