Crawling de jeux de données à l'aide de la sélection dynamique - Cloud

Guide d'utilisation de Talend Cloud Data Inventory

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration et monitoring > Gestion des connexions
Gouvernance de données
Qualité et préparation de données > Enrichissement de données
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Identification de données
Last publication date
2023-11-08

Le mode dynamique du crawler vous permet de créer un filtre et de récupérer toutes les tables y correspondant à un moment donné.

L'avantage principal de ce mode est qu'il facilite la découverte des tables contenues dans votre base de données à l'aide de filtres et que vous pouvez exécuter régulièrement votre crawler pour mettre à jour la qualité de vos jeux de données ou en ajouter de nouveaux.

Prenons l'exemple d'une entreprise utilisant les deux derniers chiffres d'une année donnée dans le nom de ses jeux de données. Les tables contenant les données sont stockées dans une base de données Snowflake et contiennent des informations concernant les client·es, les ventes, les rapports, entre autres. L'entreprise souhaite ajouter toutes les tables contenant des données relatives à l'année 2021 dans Talend Cloud Data Inventory et pouvoir importer tout ajout ou actualiser les jeux de données existants, avec une nouvelle exécution.

La meilleure manière de procéder est de créer une connexion à Snowflake et de la crawler à l'aide du mode de sélection dynamique.

Avant de commencer

Vous avez ouvert la fenêtre de configuration du crawler, comme décrit dans Crawling de multiples jeux de données.

Procédure

  1. Sélectionnez le mode Dynamic selection (Sélection dynamique).
    Tout le contenu de votre connexion à Snowflake est détecté et listé.
  2. Cliquez sur Add filter (Ajouter un filtre) > Name (Nom) > Contains (Contient) et saisissez _21.
    L'aperçu de la sélection affiche uniquement les tables contenant des informations de 2021.
    Remarque : Ne pas ajouter de filtre permet de sélectionner toutes les tables de la base de données Snowflake.
  3. Cliquez sur Next (Suivant) et définissez la configuration du partage.
  4. Cliquez sur Next (Suivant), saisissez un nom (Name) pour votre crawler, Snowflake dynamic dans cet exemple et une Description, comme All tables with data from 2021.
  5. Cliquez sur Run.

Résultats

Le processus de crawling démarre et les tables sont progressivement ajoutées comme jeux de données à votre inventaire. Lorsque l'échantillon d'un jeu de données est disponible, vous pouvez commencer à l'utiliser.

Si une modification est apportée à la base de données Snowflake, par exemple une nouvelle table disponible avec des données de 2021, nommée _21 ou des mises à jour des données d'une table existante, vous pouvez sélectionner votre connexion à Snowflake dans la liste des connexions et exécuter à nouveau le crawler existant. Toute nouvellle table correspondant au filtre sur les noms _21 sera directement ajoutée à la sélection et tous les autres jeux de données seront mis à jour.