Explorer les catégories sémantiques des colonnes de données

Pourquoi et quand exécuter cette tâche

L'exemple ci-dessous utilise une table d'une base de données pour contenir les informations clients.

Procédure

Dans la vue DQ Repository, développez le nœud Metadata et parcourez l'arborescence jusqu'à la table que vous souhaitez analyser.
Cliquez-droit sur la table et sélectionnez Semantic-aware Analysis ou cliquez-droit sur un ensemble de colonnes dans la table et sélectionnez Semantic-aware Analysis.

L'assistant sémantique s'ouvre, liste toutes les colonnes de la table ou liste les ensembles de colonnes sélectionnés, si votre analyse est une analyse de table ou d'un ensemble de colonnes, respectivement. La ligne Category dans l'assistant assigne des catégories sémantiques aux colonnes rapprochées.
Configurer les options d'échantillonnage (Sampling Options) :
- Sampling Strategy : définir les éléments à lister dans l'aperçu des données. Sélectionnez First N Rows afin de lister les N premiers enregistrements de données ou sélectionnez Reservoir Sampling pour lister N enregistrements aléatoires. Paramétrez le nombre d'enregistrements dans le champ Number of rows.
- Threshold for category discovery : configurer le seuil minimal pour les correspondances à afficher dans les listes Category des colonnes analysées.
  Ce seuil filtre les catégories les moins probables des colonnes analysées.
- Refresh : actualiser l'aperçu des données après une modification dans la configuration.
Dans le champ Category (Catégorie) de chaque colonne mise en correspondance, vous pouvez :
- sélectionner une catégorie de données dans la liste Category (Catégorie) convenant à la colonne, ou
- saisir un nom significatif pour la colonne représentant le mieux le contenu.
Pour ce faire, cliquez deux fois dans ce champ, saisissez le nom et appuyez sur la touche Entrée de votre clavier pour sauvegarder les modifications.
Les noms que vous saisissez s'affichent dans une couleur différente. Cette étape stocke en local les catégories et les noms sémantiques des colonnes. Si aucun nom sémantique n'est trouvé, les catégories sont quand même stockées.

Cela n'est pas obligatoire mais vous permet de mieux rapprocher les métadonnées de la table des concepts stockés dans le référentiel d'ontologies du serveur Elasticsearch.
Les pourcentages des catégories proposées sont calculés par l'analyse des données dans les colonnes par rapport aux méthodes suivantes : regex, data dictionary et keyword dictionary. Les index de dictionnaire et les catégories regex sont intégrés au Studio Talend et sont utilisés pour déterminer la catégorie à laquelle appartiennent les données.
Cliquez sur Next (Suivant) pour ouvrir une page de l'assistant, dans laquelle vous pouvez voir les résultats du rapprochement des métadonnées des colonnes ainsi que les concepts sémantiques et les concepts dans le référentiel d'ontologies.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici