Explorer les catégories sémantiques des colonnes de données - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

L'exemple ci-dessous utilise une table d'une base de données pour contenir les informations clients.

Procédure

  1. Dans la vue DQ Repository, développez le nœud Metadata et parcourez l'arborescence jusqu'à la table que vous souhaitez analyser.
  2. Cliquez-droit sur la table et sélectionnez Semantic-aware Analysis ou cliquez-droit sur un ensemble de colonnes dans la table et sélectionnez Semantic-aware Analysis.
    Menu contextuel d'un tableau dans le nœud Metadata (Métadonnées).

    L'assistant sémantique s'ouvre, liste toutes les colonnes de la table ou liste les ensembles de colonnes sélectionnés, si votre analyse est une analyse de table ou d'un ensemble de colonnes, respectivement. La ligne Category dans l'assistant assigne des catégories sémantiques aux colonnes rapprochées.

    Vue d'ensemble de l'assistant Semantic Category Inference (Déduction de la catégorie sémantique).
  3. Configurer les options d'échantillonnage (Sampling Options) :
    • Sampling Strategy : définir les éléments à lister dans l'aperçu des données. Sélectionnez First N Rows afin de lister les N premiers enregistrements de données ou sélectionnez Reservoir Sampling pour lister N enregistrements aléatoires. Paramétrez le nombre d'enregistrements dans le champ Number of rows.
    • Threshold for category discovery : configurer le seuil minimal pour les correspondances à afficher dans les listes Category des colonnes analysées.

      Ce seuil filtre les catégories les moins probables des colonnes analysées.

    • Refresh : actualiser l'aperçu des données après une modification dans la configuration.
  4. Dans le champ Category (Catégorie) de chaque colonne mise en correspondance, vous pouvez  :
    • sélectionner une catégorie de données dans la liste Category (Catégorie) convenant à la colonne, ou
    • saisir un nom significatif pour la colonne représentant le mieux le contenu.
  5. Pour ce faire, cliquez deux fois dans ce champ, saisissez le nom et appuyez sur la touche Entrée de votre clavier pour sauvegarder les modifications.
    Les noms que vous saisissez s'affichent dans une couleur différente. Cette étape stocke en local les catégories et les noms sémantiques des colonnes. Si aucun nom sémantique n'est trouvé, les catégories sont quand même stockées.
    Cela n'est pas obligatoire mais vous permet de mieux rapprocher les métadonnées de la table des concepts stockés dans le référentiel d'ontologie du serveur de log.

    Les pourcentages des catégories proposées sont calculés par l'analyse des données dans les colonnes par rapport aux méthodes suivantes : regex, data dictionary et keyword dictionary. Les index de dictionnaire et les catégories regex sont intégrés au Studio Talend et sont utilisés pour déterminer la catégorie à laquelle appartiennent les données.

  6. Cliquez sur Next (Suivant) pour ouvrir une page de l'assistant, dans laquelle vous pouvez voir les résultats du rapprochement des métadonnées des colonnes ainsi que les concepts sémantiques et les concepts dans le référentiel d'ontologies.