Créer un jeu de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-04-16
Créer un jeu de données à partir de zéro.

Procédure

  1. Allez dans Datasets > Add dataset.
  2. Dans le panneau Add a new dataset, donnez un nom à votre jeu de données et sélectionnez la connexion dans laquelle vous souhaitez créer votre jeu de données.
    Si vous souhaitez ajouter un jeu de données à partir d'une connexion qui n'existe pas encore, vous pouvez créer cette connexion directement depuis la liste déroulante connection.
  3. Ajoutez une description si nécessaire et renseignez les propriétés requises du jeu de données.
    • Pour les connexions aux stockages de fichiers S3 et HDFS, un bouton Auto detect (Détection automatique) vous permet de détecter et renseigner automatiquement le format de vos données (CSV, Excel, Avro ou Parquet).

    • La requête de la base de données et les types de tables ne sont pas compatibles, parce que vous ne pouvez utiliser de base de données de type requête comme jeu de données de destination. Si vous tentez de modifier la configuration de la base de données à un autre type après sa sauvegarde, une vérification est déclenchée sur votre pipeline afin de voir si l'opération est possible.

  4. (Facultatif) Cliquez sur View sample (Voir un échantillon) pour voir un aperçu des premiers enregistrements de l'échantillon du jeu de données.
  5. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.

Résultats

Le nouveau jeu de données est ajouté à la liste de la page Datasets et est prêt à être utilisé.
Une fois créé, vous pouvez aller dans la vue détaillée du jeu de données pour afficher un échantillon de vos données dans différents formats :
  • Grid : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme de tableau ;
  • Hierarchy : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme d'arborescence ;
  • Raw : dans cette vue, vous pouvez afficher une version non modifiée et non filtrée des 10 000 premiers enregistrements de vos données.