Générer le profiling et l'échantillonnage de données - 8.0

Guide d'utilisation de Talend Data Catalog

Version
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Catalog
Content
Gouvernance de données
Last publication date
2023-11-13

Si vous activez le profiling de données au cours de l'import des métadonnées, Talend Data Catalog effectue le profiling de toutes les tables ou de tous les fichiers au fur et à mesure de l'import et collecte des lignes d'échantillon.

Le profiling de données et l'import de métadonnées partageant la connectivité du data store et les paramètres du domaine, vous n'avez pas besoin de configurer la connectivité du profiling de données de façon explicite.

L'échantillonnage et le profiling de données peuvent être définis et effectués indépendamment.

L'échantillonnage et le profiling de données peuvent être effectués comme partie d'une collecte de modèle ou à la demande.

L'échantillonnage et le profiling de données sont requis pour effectuer l'attribution automatique de mots-clés pour la classification de données.

Avant de commencer

  • Assurez-vous que le pont de la source de données supporte le profiling de données.
  • Un rôle d'objet ayant la fonctionnalité Data Management (Gestion de données) vous a été attribué.

Procédure

  1. Ouvrez l'onglet Import Options (Options d'import) pour activer les options de profiling et/ou d'échantillonnage de données.
  2. Cochez la case Data Profiling (Profiling de données) et définissez le nombre de lignes à profiler.
  3. Cochez la case Data Sampling (Échantillonnage de données) et définissez le nombre de lignes à inclure dans l'aperçu.
  4. Cochez la case Profile only objects that are not profiled yet (Ne profiler que les objets qui n'ont pas été profilés) pour activer le profiling de données uniquement sur les objets importés n'ayant pas encore été profilés.
    Si la case est décochée, Talend Data Catalog profile à nouveau tous les objets importés selon leur heure de dernière modification.
  5. Cochez la case Data Classification (Classification de données) pour exécuter automatiquement la classification de données sur les objets nouvellement profilés.
  6. Cochez la case Hide data using Sensitivity Label (Masquer les données à l'aide d'un libellé de sensibilité) et sélectionnez un libellé de sensibilité dans la liste pour l'appliquer aux nouveaux objets importés dans le périmètre.
  7. Sauvegardez vos modifications.
  8. Pour exécuter ou actualiser un profiling et/ou un échantillonnage de données, effectuez l'une des actions suivantes :
    • Réimportez le modèle et allez à la page de l'objet.
    • Générez le profiling et l'échantillonnage de données depuis tout niveau d'objets importés, y compris Tables (Tableaux)/Files (Fichiers)/Views (Vues) (Classifieur), Schema (Schéma)/Package, Model (Modèle) ou le dossier File System (Système de fichiers).
      1. Allez à la page de l'objet.
      2. Dans la zone Data Request SQL (Requête de données SQL), spécifiez votre requête SQL sur l'objet, selon vos besoins. La requête de données SQL est utilisée après une nouvelle collecte.
      3. Dans le menu More actions (Autres actions), cliquez sur Generate Data Sampling and Profiling (Générer le profiling et l'échantillonnage de données).
      4. Configurez les options selon vos besoins.
      5. Cliquez sur OK pour exécuter l'opération.