Accéder au contenu principal Passer au contenu complémentaire

Explorer les catégories sémantiques des colonnes de données

Pourquoi et quand exécuter cette tâche

L'exemple ci-dessous utilise une table d'une base de données pour contenir les informations clients.

Procédure

  1. Dans la vue DQ Repository, développez le nœud Metadata et parcourez l'arborescence jusqu'à la table que vous souhaitez analyser.
  2. Cliquez-droit sur la table et sélectionnez Semantic-aware Analysis ou cliquez-droit sur un ensemble de colonnes dans la table et sélectionnez Semantic-aware Analysis.

    L'assistant sémantique s'ouvre, liste toutes les colonnes de la table ou liste les ensembles de colonnes sélectionnés, si votre analyse est une analyse de table ou d'un ensemble de colonnes, respectivement. La ligne Category dans l'assistant assigne des catégories sémantiques aux colonnes rapprochées.

  3. Configurez les Sampling Options dans la section concernée :
    Sélectionnez ou cliquez sur Pour...
    - First N Rows

    - Reservoir Sampling

    - lister dans l'aperçu des données les N premiers enregistrements de données des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    - lister dans l'aperçu des données N enregistrements aléatoires des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    Threshold for category discovery configurer le seuil minimal pour les correspondances à afficher dans les listes Category des colonnes analysées.

    Ce seuil filtre les catégories les moins probables des colonnes analysées.

    Refresh Actualiser l'aperçu des données après une modification dans la configuration.
  4. Dans le champ Category (Catégorie) de chaque colonne mise en correspondance, vous pouvez  :
    • sélectionner une catégorie de données dans la liste Category (Catégorie) convenant à la colonne, ou
    • saisir un nom significatif pour la colonne représentant le mieux le contenu.
  5. Pour ce faire, cliquez deux fois dans ce champ, saisissez le nom et appuyez sur la touche Entrée de votre clavier pour sauvegarder les modifications.
    Les noms que vous saisissez s'affichent dans une couleur différente. Cette étape stocke en local les catégories et les noms sémantiques des colonnes. Si aucun nom sémantique n'est trouvé, les catégories sont quand même stockées.
    Cela n'est pas obligatoire mais vous permet de mieux rapprocher les métadonnées de la table des concepts stockés dans le référentiel d'ontologie du serveur de log.

    Les pourcentages des catégories proposées sont calculés par l'analyse des données dans les colonnes par rapport aux méthodes suivantes : regex, data dictionary et keyword dictionary. Les index de dictionnaire et les catégories regex sont intégrés au Studio et sont utilisés pour déterminer la catégorie à laquelle appartiennent les données.

  6. Cliquez sur Next pour ouvrir une page de l'assistant, dans laquelle vous pouvez voir les résultats du rapprochement des métadonnées des colonnes ainsi que les concepts sémantiques et les concepts dans le référentiel d'ontologie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !