Concepts de Talend Data Preparation - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Ces définitions vous aideront à saisir les concepts principaux de Talend Data Preparation.
  • Dataset : un jeu de données contient les données brutes qui peuvent être utilisées comme matière première pour une ou plusieurs préparations. Il se présente sous forme de tableau sur lequel vous pouvez appliquer les étapes de votre recette sans affecter les données d'origine. Un jeu de données peut être réutilisé par plusieurs préparations.
  • Preparation : une préparation fait le lien entre le jeu de données et la recette. C'est le résultat final que vous souhaitez atteindre avec vos données. Vous pouvez exporter le résultat de votre préparation en tant que fichier local, ou bien vers d'autres solutions de stockage. Une préparation applique à un jeu de données une recette pour produire un résultat. Les données d'origine ne sont jamais modifiées.
  • Recipe : littéralement, une recette est définie comme "une suite d'étapes à accomplir avec une liste d'ingrédients pour concevoir ou préparer quelque chose". Dans Talend Data Preparation, les ingrédients sont vos données brutes, aussi appelés jeux de données, et les étapes sont les différentes fonctions appliquées aux jeux de données. Visuellement, la recette est formée par le séquence verticale de fonctions qui se trouve dans le panneau de gauche. Une recette est liée au jeu de données via la préparation. Chaque évolution de la recette est automatiquement enregistrée dans la préparation.
  • Function : une fonction est une action appliquée à une ligne, une colonne ou bien à l'ensemble de votre jeu de données, comme la suppression de lignes vides. Puisque les fonctions sont appliquées dans le contexte d'une préparation, elles ne modifient pas les données d'origine. Les fonctions que vous appliquez sont listées dans des recettes, dans l'ordre chronologique.
  • Semantic type : le type sémantique d'une colonne ou d'un enregistrement correspond au type de données pouvant être trouvées dans ces colonnes ou enregistrements, comme des noms, des codes postaux, des numéros de téléphone, des coordonnées, etc. Les applications Talend bénéficient de fonctionnalités sémantiques, ce qui signifie que, lorsque vous regardez vos données d'échantillon, elles sont automatiquement catégorisées à l'aide des types sémantiques par défaut ou à l'aide de ceux que vous avez créés.