Si vous devez importer un grand nombre de jeux de données d'une même source, au lieu de les créer un par un dans Talend Cloud Data Inventory, vous pouvez créer un crawler pour récupérer une liste complète de ressources en une opération.
Le crawling d'une connexion vous permet de récupérer des données à grande échelle et d'enrichir votre inventaire plus efficacement. Après avoir sélectionné une connexion, vous pourrez importer tout son contenu, ou une partie de son contenu, via une recherche et un filtre. Vous pourrez également sélectionner les utilisateur·trices ayant accès aux jeux de données créés.
Vous ne pouvez crawler des données que d'une connexion JDBC. Un seul crawler peut être créé à la fois, à partir d'une connexion.
Avant de commencer
- Le rôle Dataset administrator (Administrateur des jeux de données) ou Dataset manager (Gestionnaire des jeux de données) vous a été attribué dans Talend Cloud Management Console, ou vous avez au moins le droit Crawling - Add (Crawling - Ajout).
- Vous utilisez une version 2022-02 ou supérieure du moteur distant.
Procédure
-
Pour commencer à créer un crawler pour une connexion, vous pouvez :
- placer votre curseur sur votre connexion dans la liste des connexions et cliquer sur l'icône Crawl connection (Crawler la connexion),
- ou cliquer sur votre connexion dans la liste des connexions et, dans l'onglet Crawler du panneau, cliquez sur Add crawler (Ajouter un crawler).
La fenêtre de configuration du crawler s'ouvre et le contenu de la connexion est détecté et listé.
-
Vous pouvez importer toutes les tables disponibles depuis la base de données ou importer des tables spécifiques.
- Import all available tables (Importer toutes les tables disponibles)
Pour sélectionner toutes les tables contenues dans votre base de données, sélectionnez Tables dans la liste déroulante Type, cochez la case dans l'en-tête de colonne Name (Nom), puis cliquez sur Next (Suivant).
- Import specific tables (Importer des tables spécifiques)
Si vous souhaitez importer des tables ou vues spécifiques uniquement, vous pouvez utiliser le champ de recherche et la liste déroulante Type pour explorer le contenu de la connexion et cocher les cases correspondantes.
Vous devez à présent définir quel·les utilisateur·trices pourront accéder aux jeux de données créés et avec quels droits.
-
Pour ajouter des utilisateur·trices à la liste des personnes pouvant accéder aux jeux de données, vous pouvez :
Important : Vous devez sélectionner au moins un gestionnaire pour les jeux de données, pour pouvoir continuer.
Pour plus d'informations concernant le partage et les rôles, consultez
Partager un jeu de données.
-
Cliquez sur Next (Suivant) pour accéder à la dernière étape de configuration.
-
Saisissez un nom (Name) pour votre crawler, MySQL crawler dans cet exemple. Vous pouvez ajouter une Description décrivant l'utilisation prévue pour ce crawler.
-
Cliquez sur Run.
Un processus asynchrone est lancé en tâche de fond, pour crawler les jeux de données sélectionnés, à partir de la connexion. Vous êtes à nouveau sur la liste des connexions, avec l'onglet
Crawler ouvert dans le panneau de droite, dans lequel vous pouvez monitorer l'avancement de la création des jeux de données, ainsi que la disponibilité des échantillons.