Mise à jour d'un type sémantique existant - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

Vous pouvez modifier un type sémantique existant dans Talend Dictionary Service afin de changer la manière dont sont validées vos données dans Talend Data Preparation.

Les types sémantiques prédéfinis dans Talend Data Preparation se basent sur des valeurs standard, mais il est possible que vous deviez les adapter pour qu'ils correspondent à vos données. Certaines données que vous considérez comme appartenant à une catégorie prédéfinie peuvent être considérées comme invalides.

Prenez l'exemple d'un jeu de données contenant une liste de clients, avec leur adresse e-mail, date de naissance et leur pays de résidence. Vous pouvez constater que toutes les entrées pour America sont considérées comme invalides. Même si effectivement le nom de pays n'est pas valide, c'est la valeur que votre entreprise utilise et vous souhaitez la rendre valide.

Jeu de données contenant des informations clients avec des valeurs invalides.

Le problème ici est que America n'est pas une valeur attendue pour le type sémantique country dans Talend Data Preparation. L'entrée valide, dans ce cas, serait United States ou United States of America.

Pour éviter de futurs problèmes, vous allez mettre à jour le type sémantique country dans Talend Dictionary Service et ajouter America à la liste des entrées valides. Cette modification sera automatiquement disponible dans Talend Data Preparation.

Procédure

  1. Ouvrez la vue Semantic types (Types sémantiques) du panneau de gauche de la page d'accueil de Talend Data Preparation.
  2. Dans la liste des types sémantiques existants, cliquez sur le type Country pour l'ouvrir.
    Dans cette fenêtre, tous les paramètres du type sémantique peuvent être modifiés, notamment la liste des entrées utilisées pour explorer ou valider des données.
  3. Dans la liste Values (Valeurs), placez votre curseur sur l'entrée United States et cliquez sur l'icône représentant un crayon, à droite.
  4. Après United States, saisissez America comme nouvelle valeur, séparée par une virgule.
  5. Cliquez sur l'icône représentant une coche verte afin de valider votre modification.

    Toutes les valeurs séparées par une virgule au sein de la même ligne sont définies comme des synonymes. En conséquence, America sera considérée comme une valeur valide pour le type sémantique country.

  6. Cliquez sur Save and publish (Sauvegarder et publier) afin de propager la modification dans Talend Dictionary Service et la rendre disponible aux utilisateurs et utilisatrices de Talend Data Preparation.

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez dupliquer la colonne ou réimporter votre jeu de données.

  7. Retournez à votre jeu de données avec la colonne contenant les pays des clients.
  8. Dupliquez le colonne avec le type sémantique mis à jour appliqué, Country dans cet exemple.

    Dans la barre de statistiques, sous l'en-tête de colonne, vous pouvez voir qu'il n'y a plus de valeur invalide.

    Jeu de données contenant des informations clients avec des valeurs valides.

Résultats

Le type sémantique country a été mis à jour manuellement pour supporter une nouvelle valeur.

À partir de maintenant, lorsque vous rencontrez des données correspondant au type sémantique country, America sera considéré comme une valeur valide.