Explorer les catégories sémantiques des colonnes de données - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

L'exemple ci-dessous utilise une table d'une base de données pour contenir les informations clients.

Procédure

  1. Dans la vue DQ Repository, développez le nœud Metadata et parcourez l'arborescence jusqu'à la table que vous souhaitez analyser.
  2. Cliquez-droit sur la table et sélectionnez Semantic-aware Analysis ou cliquez-droit sur un ensemble de colonnes dans la table et sélectionnez Semantic-aware Analysis.
    L'assistant sémantique s'ouvre, liste toutes les colonnes de la table ou liste les ensembles de colonnes sélectionnés, si votre analyse est une analyse de table et d'un ensemble de colonnes, respectivement. La ligne Category dans l'assistant assigne des catégories sémantiques aux colonnes rapprochées.
  3. Dans la zone Sampling Options :

    Sélectionnez/Cliquez sur

    Pour...

    - First N Rows

    - Reservoir Sampling

    - lister dans l'aperçu des données les N premiers enregistrements de données des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    - lister dans l'aperçu des données N enregistrements aléatoires des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    Threshold for category discovery

    configurer le seuil minimal pour les correspondances à afficher dans les listes Category des colonnes analysées.

    Ce seuil filtre les catégories les moins probables des colonnes analysées.

    Refresh

    rafraîchir l'aperçu des données après une modification dans la configuration.

  4. Dans le champ Category de chaque colonne mise en correspondance, vous pouvez :
    • sélectionner une catégorie de données dans la liste Category convenant à la colonne, ou

    • saisir un nom significatif pour la colonne représentant le mieux le contenu.

      Pour ce faire, cliquez deux fois dans ce champ, saisissez le nom et appuyez sur la touche Entrée de votre clavier pour sauvegarder les modifications. Les noms que vous saisissez s'affichent dans une couleur différente. Cette étape stocke en local les catégories et les noms sémantiques des colonnes. Si aucun nom sémantique n'est trouvé, les catégories sont quand même stockées.

    Cela n'est pas obligatoire mais vous permet de mieux rapprocher les métadonnées de la table des concepts stockés dans le référentiel d'ontologies du serveur de log.
    Les pourcentages des catégories proposées sont calculés par l'analyse des données dans les colonnes par rapport aux méthodes suivantes : regex, data dictionary et keyword dictionary. Les index de dictionnaire et les catégories regex sont intégrés au studio et sont utilisés pour déterminer la catégorie à laquelle appartiennent les données.
    Vous trouverez une liste des index et des catégories des regex utilisés dans l'analyse sémantique sur Liste des index et des catégories des regex utilisés dans l'analyse sémantique (https://help.talend.com).
  5. Cliquez sur Next pour ouvrir une page de l'assistant, dans laquelle vous pouvez voir les résultats du rapprochement des métadonnées des colonnes ainsi que les concepts sémantiques et les concepts dans le référentiel d'ontologie.