Ajout d'un type sémantique basé sur un dictionnaire - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-03-26

Vous pouvez créer un type sémantique basé sur un dictionnaire fermé dans le menu Semantic types (Types sémantiques), pour qu'il soit ajouté à la liste des types de données reconnus.

Dans Talend Cloud Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus.

Imaginez que vous travaillez pour une entreprise anglaise, dont les clients résident uniquement au Royaume-Uni. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Les types sémantiques pour la colonne contenant les données des comtés seront configurés par défaut à city. Certaines des données peuvent correspondre à des noms de villes, mais vous souhaitez ajouter un type sémantique plus spécifique à vos données : le type sémantique UK_counties dans cet exemple.

Menu de la colonne County ouvert avec l'option Column is a Cities sélectionnée.

Vous allez créer ce nouveau type sémantique dans le menu dédié et il sera disponible instantanément dans votre préparation, pour que vos données soient mises en correspondance avec un type correct.

Procédure

  1. Cliquez sur l'onglet Semantic types (Types sémantiques) dans le menu de gauche.

    La liste des types sémantiques présents par défaut dans Talend Cloud Data Preparation s'ouvre. Pour la liste complète, consultez Types sémantiques prédéfinis.

    Liste des types sémantiques par défaut ouverte.
  2. Cliquez sur le bouton Add semantic type (Ajouter une type sémantique).

    Le formulaire de création de type sémantique s'ouvre.

  3. Dans le champ Name (Nom), saisissez le nom à donner à votre type sémantique, UK Counties dans cet exemple.
  4. Dans le champ Description, saisissez List of counties in the United Kingdom.
  5. Dans la liste déroulante Type, sélectionnez Dictionary (Dictionnaire).

    Vous allez en effet créer ce type sémantique, en vous basant sur une liste exhaustive de valeurs.

  6. Laissez l'option Use for validation activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, le dictionnaire ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  7. Dans la liste déroulante Validation criterion (Modèle de validation), sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value (Valeur exacte) par exemple.
    • Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés au cours de la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-eN-cRoute sera considérée comme valide mais pas Pâté n croûte.
    • Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte durant la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-en-croute sera considérée comme valide mais pas Pate en croute.
    • Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les données sont considérées comme valides uniquement si la correspondance avec la valeur de référence est exacte.
  8. Pour ajouter la liste des comtés qui constituera le type sémantique UK Counties au champ Values (Valeurs), vous pouvez :
    • ajouter manuellement chaque valeur. Cliquez sur le bouton plus pour saisir une valeur et cliquez sur l'icône coche afin de valider votre modification. Répétez l'opération pour chaque comté à ajouter à la liste.
    • Importez un fichier contenant une liste plein texte des comtés du Royaume-Uni. Cliquez sur le bouton import (importer) pour sélectionner le fichier à charger. Le format du fichier n'est pas important, tant que le contenu est du plein texte.
      Remarque : Vous pouvez charger jusqu'à 10 Mo de contenu dans Talend Dictionary Service par tenant.

      Téléchargez et extrayez le fichier : dict_uk_counties.zip.

      Fichier texte ouvert.

      Saisissez chaque valeur différente sur une ligne séparée. Les valeurs sur la même ligne et séparées par une virgule sont considérées comme synonymes.

      Lorsque vous importez une liste à partir d'un fichier, les valeurs non alphabétiques doivent être protégées par des guillemets, sinon le fichier est rejeté.

    La duplication de valeurs n'est pas autorisée. Lorsque vous ajoutez manuellement des valeurs, une vérification est effectuée. Lorsque vous importez un fichier, une étape de dédoublonnage est automatiquement effectuée.

    La liste complète des comtés a été ajoutée.

  9. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs et utilisatrices de Talend Cloud Data Preparation.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type UK Counties est à présent disponible dans la liste des types sémantiques, avec le statut Published (Publié).

    Types de comtés du Royaume-Uni publiés.

    Cette modification des types sémantiques est effective instantanément dans Talend Cloud Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.

  10. Retournez à votre jeu de données contenant les noms des comtés.
  11. Cliquez sur l'icône de menu dans l'en-tête de la colonne County et sélectionnez Column is a... > UK Counties.

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

    Type de comtés du Royaume-Uni sélectionné avec un score de 100 %.

Résultats

Vos données sont mises en correspondances avec le type sémantique UK Counties, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des noms de comtés britanniques, ils seront automatiquement mis en correspondance avec le bon type.