Ajout d'un type sémantique basé sur un dictionnaire - Cloud

Guide d'utilisation de Talend Cloud Data Inventory

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration et monitoring > Gestion des connexions
Gouvernance de données
Qualité et préparation de données > Enrichissement de données
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Identification de données

Vous pouvez créer un type sémantique basé sur un dictionnaire fermé dans le menu Semantic types (Types sémantiques), pour qu'il soit ajouté à la liste des types de données reconnus.

Dans l'application, tous les types de données ne peuvent actuellement pas être rapprochés de l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus comme tels.

Imaginez que vous travaillez pour une entreprise britannique, avec des clients vivant uniquement au Royaume-Uni. Dans cet exemple, vous avez créé un jeu de données contenant des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Les types sémantiques pour la colonne contenant les données des comtés seront configurés par défaut à city. Certaines des données peuvent correspondre à des noms de villes, mais vous souhaitez ajouter un type sémantique plus spécifique à vos données : le type sémantique UK_counties dans cet exemple.

Vous allez créer ce type sémantique dans le menu dédié et il sera disponible instantanément dans votre jeu de données, pour que vos données soient mises en correspondance avec un type correct.

Procédure

  1. Dans le panneau à gauche de la page d'accueil, ouvrez la vue Semantic type (Type sémantique).
    La liste des types sémantiques présents par défaut dans Talend Dictionary Service s'ouvre.
  2. Cliquez sur le bouton Add semantic type (Ajouter une type sémantique).
    Le formulaire de création de type sémantique s'ouvre.
  3. Dans le champ Name (Nom), saisissez le nom à donner à votre type sémantique, UK Counties , dans cet exemple.
  4. Dans le champ Description, saisissez List of counties in the United Kingdom.
  5. Dans la liste déroulante Type, sélectionnez Dictionary (Dictionnaire).
    Vous allez créer ce type sémantique en vous basant sur une liste exhaustive de valeurs.
  6. Laissez l'option Use for validation activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos échantillons de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, le dictionnaire ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  7. Dans la liste déroulante Validation criterion (Modèle de validation), sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value (Valeur exacte) par exemple.
    • Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés au cours de la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-eN-cRoute sera considérée comme valide mais pas Pâté n croûte.
    • Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte durant la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-en-croute sera considérée comme valide, mais pas pate en croute.
    • Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les données sont considérées comme valides uniquement s'il y a une correspondance exacte avec la valeur de référence.
  8. Pour ajouter la liste des comtés qui constituera le type sémantique UK Counties au champ Values (Valeurs), vous pouvez :
    • ajouter manuellement chaque valeur. Cliquez sur le bouton plus pour saisir une valeur et cliquez sur l'icône coche afin de valider votre modification. Répétez l'opération pour chaque comté à ajouter à la liste.
    • importer un fichier contenant une liste plein texte de comtés du Royaume-Uni. Cliquez sur le bouton import (Importer) afin de sélectionner le fichier à charger. Le format du fichier n'est pas important, tant que le contenu est du plein texte.
      Remarque : Vous pouvez télécharger jusqu'à 10 Mo de contenu dans Talend Dictionary Service par tenant.

      Récupérez le fichier dict_uk_counties.txt depuis l'onglet Téléchargements du panneau de gauche de la page.

      Saisissez chaque valeur différente sur une ligne séparée. Les valeurs sur la même ligne, séparées par une virgule, seront considérées comme des synonymes.

      Lorsque vous importez une liste depuis un fichier, les valeurs non-alphabétiques doivent être protégées par des guillemets, sinon le fichier est rejeté.

    La duplication de valeurs n'est pas autorisée. Lorsque vous ajoutez manuellement des valeurs, une vérification est effectuée. Lorsque vous importez un fichier, une étape de dédoublonnage est automatiquement effectuée.

    La liste complète des comtés a été ajoutée.

  9. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs et utilisatrices de Talend Cloud Data Inventory.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Talend Cloud. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type UK Counties est à présent disponible dans la liste des types sémantiques, avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Cloud Data Inventory pour chaque jeu de données que vous créez. Pour les jeux de données existants, vous devez actualiser l'échantillon afin de calculer à nouveau la qualité avec la nouvelle catégorie.

  10. Retournez à votre jeu de données contenant les noms des comtés.
  11. Cliquez sur le bouton Refresh sample (Actualiser l'échantillon).

Résultats

Vos données sont mises en correspondances avec le type sémantique UK Counties, manuellement créé dans Talend Dictionary Service.

À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des noms de comtés britanniques, ils seront automatiquement mis en correspondance avec le bon type.