Crawling de multiples jeux de données - Cloud

Guide d'utilisation de Talend Cloud Data Inventory

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration et monitoring > Gestion des connexions
Gouvernance de données
Qualité et préparation de données > Enrichissement de données
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Identification de données

Si vous devez importer un grand nombre de jeux de données d'une même source, au lieu de les créer un par un dans Talend Cloud Data Inventory, vous pouvez créer un crawler pour récupérer une liste complète de ressources en une opération.

Le crawling d'une connexion vous permet de récupérer des données à grande échelle et d'enrichir votre inventaire plus efficacement. Après avoir sélectionné une connexion, vous pourrez importer tout son contenu, ou une partie de son contenu, via une recherche et un filtre. Vous pourrez également sélectionner les utilisateur·trices ayant accès aux jeux de données créés.

Vous ne pouvez crawler des données que d'une connexion JDBC. Un seul crawler peut être créé à la fois, à partir d'une connexion.

Avant de commencer

  • Le rôle Dataset administrator (Administrateur des jeux de données) ou Dataset manager (Gestionnaire des jeux de données) vous a été attribué dans Talend Cloud Management Console, ou vous avez au moins le droit Crawling - Add (Crawling - Ajout).
  • Vous utilisez une version 2022-02 ou supérieure du moteur distant.

Procédure

  1. Pour commencer à créer un crawler pour une connexion, vous pouvez :
    • placer votre curseur sur votre connexion dans la liste des connexions et cliquer sur l'icône Crawl connection (Crawler la connexion),
    • ou cliquer sur votre connexion dans la liste des connexions et, dans l'onglet Crawler du panneau, cliquez sur Add crawler (Ajouter un crawler).
    La fenêtre de configuration du crawler s'ouvre et le contenu de la connexion est détecté et listé.
  2. Vous pouvez importer toutes les tables disponibles depuis la base de données ou importer des tables spécifiques.
    • Import all available tables (Importer toutes les tables disponibles)

      Pour sélectionner toutes les tables contenues dans votre base de données, sélectionnez Tables dans la liste déroulante Type, cochez la case dans l'en-tête de colonne Name (Nom), puis cliquez sur Next (Suivant).

    • Import specific tables (Importer des tables spécifiques)

      Si vous souhaitez importer des tables ou vues spécifiques uniquement, vous pouvez utiliser le champ de recherche et la liste déroulante Type pour explorer le contenu de la connexion et cocher les cases correspondantes.

    Vous devez à présent définir quel·les utilisateur·trices pourront accéder aux jeux de données créés et avec quels droits.

  3. Pour ajouter des utilisateur·trices à la liste des personnes pouvant accéder aux jeux de données, vous pouvez :
    • passer votre curseur sur un·e utilisateur·trice ou un groupe, cliquer sur l'icône + et attribuer les droits à donner dans la liste déroulante de la colonne de droite.
    • sélectionner un·e utilisateur·trice ou un groupe, cliquer sur Add as (Ajouter en tant que) et attribuer les droits à donner dans la liste déroulante.

      Vous pouvez sélectionner plusieurs groupes ou utilisateur·trices d'un coup en utilisant Ctrl + Clic ou Maj + Clic.

    Important : Vous devez sélectionner au moins un gestionnaire pour les jeux de données, pour pouvoir continuer.
    Pour plus d'informations concernant le partage et les rôles, consultez Partager un jeu de données.
  4. Cliquez sur Next (Suivant) pour accéder à la dernière étape de configuration.
  5. Saisissez un nom (Name) pour votre crawler, MySQL crawler dans cet exemple. Vous pouvez ajouter une Description décrivant l'utilisation prévue pour ce crawler.
  6. Cliquez sur Run.
    Un processus asynchrone est lancé en tâche de fond, pour crawler les jeux de données sélectionnés, à partir de la connexion. Vous êtes à nouveau sur la liste des connexions, avec l'onglet Crawler ouvert dans le panneau de droite, dans lequel vous pouvez monitorer l'avancement de la création des jeux de données, ainsi que la disponibilité des échantillons.