Créer un jeu de données - Cloud

Guide d'utilisation de Talend Cloud Data Inventory

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration et monitoring > Gestion des connexions
Gouvernance de données
Qualité et préparation de données > Enrichissement de données
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Identification de données
Créer un jeu de données à partir de zéro.

Procédure

  1. Allez dans Datasets > ADD DATASET.
  2. Dans le panneau Add a new dataset, donnez un nom à votre jeu de données et sélectionnez la connexion dans laquelle vous souhaitez créer votre jeu de données.
    Si vous souhaitez ajouter un jeu de données à partir d'une connexion qui n'existe pas encore, vous pouvez créer cette connexion directement depuis la liste déroulante connection.
  3. Ajoutez une description si nécessaire et renseignez les propriétés requises du jeu de données.
    • Pour les connexions à S3 et au stockage de fichiers HDFS, un bouton AUTO DETECT vous permet de détecter et renseigner automatiquement le format de vos données (CSV, Excel, Avro ou Parquet).

    • La requête de la base de données et les types de tables ne sont pas compatibles, parce que vous ne pouvez utiliser de base de données de type requête comme jeu de données de destination. Si vous tentez de modifier la configuration de la base de données à un autre type après sa sauvegarde, une vérification est déclenchée sur votre pipeline afin de voir si l'opération est possible.

  4. (Facultatif) Cliquez sur VIEW SAMPLE afin de prévisualiser un échantillon des 50 premiers enregistrements de votre jeu de données.
  5. Cliquez sur VALIDATE pour sauvegarder votre jeu de données.

Résultats

Le nouveau jeu de données est ajouté à la liste de la page Datasets et est prêt à être utilisé.
Une fois créé, vous pouvez aller dans la vue détaillée du jeu de données pour afficher un échantillon de vos données dans différents formats :
  • Grid : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme de tableau ;
  • Hierarchy : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme d'arborescence ;
  • Raw : dans cette vue, vous pouvez afficher une version non modifiée et non filtrée des 10 000 premiers enregistrements de vos données.