Accéder au contenu principal Passer au contenu complémentaire

Crawling de jeux de données à l'aide de la sélection dynamique

Le mode dynamique du crawler vous permet de créer un filtre et de récupérer toutes les tables y correspondant à un moment donné.

L'avantage principal de ce mode est qu'il facilite la découverte des tables contenues dans votre base de données à l'aide de filtres et que vous pouvez exécuter régulièrement votre crawler pour mettre à jour la qualité de vos jeux de données ou en ajouter de nouveaux.

Prenons l'exemple d'une entreprise utilisant les deux derniers chiffres d'une année donnée dans le nom de ses jeux de données. Les tables contenant les données sont stockées dans une base de données Snowflake et contiennent des informations concernant les client·es, les ventes, les rapports, entre autres. L'entreprise souhaite ajouter toutes les tables contenant des données relatives à l'année 2021 dans Talend Cloud Data Inventory et pouvoir importer tout ajout ou actualiser les jeux de données existants, avec une nouvelle exécution.

La meilleure manière de procéder est de créer une connexion à Snowflake et de la crawler à l'aide du mode de sélection dynamique.

Avant de commencer

Vous avez ouvert la fenêtre de configuration du crawler, comme décrit dans Crawling de multiples jeux de données.

Procédure

  1. Sélectionnez le mode Dynamic selection (Sélection dynamique).
    Tout le contenu de votre connexion à Snowflake est détecté et listé.
    Sélection dynamique du contenu complet de la connexion à Snowflake.
  2. Cliquez sur Add filter (Ajouter un filtre) > Name (Nom) > Contains (Contient) et saisissez _21.
    L'aperçu de la sélection affiche uniquement les tables contenant des informations de 2021.
    Filtre appliqué sur une sélection dynamique.
    Note InformationsRemarque : Ne pas ajouter de filtre permet de sélectionner toutes les tables de la base de données Snowflake.
  3. Cliquez sur Next (Suivant) et définissez la configuration du partage.
  4. Cliquez sur Next (Suivant), saisissez un nom (Name) pour votre crawler, Snowflake dynamic dans cet exemple et une Description, comme All tables with data from 2021.
  5. Cliquez sur Run.

Résultats

Le processus de crawling démarre et les tables sont progressivement ajoutées comme jeux de données à votre inventaire. Lorsque l'échantillon d'un jeu de données est disponible, vous pouvez commencer à l'utiliser.

Si une modification est apportée à la base de données Snowflake, par exemple une nouvelle table disponible avec des données de 2021, nommée _21 ou des mises à jour des données d'une table existante, vous pouvez sélectionner votre connexion à Snowflake dans la liste des connexions et exécuter à nouveau le crawler existant. Toute nouvellle table correspondant au filtre sur les noms _21 sera directement ajoutée à la sélection et tous les autres jeux de données seront mis à jour.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !