Mise à jour d'un type sémantique existant via l'interface - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez modifier un type sémantique existant dans Talend Dictionary Service afin de changer la manière dont sont validées vos données dans Talend Data Preparation.

Les types sémantiques prédéfinis dans Talend Data Preparation se basent sur des valeurs standard, mais il est possible que vous deviez les adapter pour qu'ils correspondent à vos données. Certaines données que vous pensez appartenir à une catégorie prédéfinie peuvent être considérées comme invalides.

Imaginez un jeu de données contenant une liste de clients, avec leur adresse e-mail, leur date de naissance et le pays dans lequel ils vivent. Vous pouvez constater que toutes les entrées pour United States of America sont considérées comme invalides, alors qu'elles ne devraient pas, puisque c'est le nom officiel du pays.

Le problème est que United States of America n'est pas une valeur attendue pour le type sémantique country, dans Talend Data Preparation. L'entrée valide, dans ce cas, serait United States.

Pour éviter de futurs problèmes, vous allez mettre à jour le type sémantique country dans Talend Dictionary Service et ajouter United States of America à la liste des entrées valides. Cette modification sera automatiquement disponible dans Talend Data Preparation.

Procédure

  1. Ouvrez la vue Semantic types (Types sémantiques) du panneau de gauche de la page d'accueil de Talend Data Preparation.
  2. Dans la liste des types sémantiques existants, cliquez sur le type Country pour l'ouvrir.
    Dans cette fenêtre, tous les paramètres du type sémantique peuvent être modifiés, notamment la liste des entrées utilisées pour explorer ou valider des données.
  3. Dans la liste Values (Valeurs), placez votre curseur sur l'entrée United States et cliquez sur l'icône représentant un crayon, à droite.
  4. Après United States, saisissez United States of America comme valeur secondaire, séparée par une virgule.
  5. Cliquez sur l'icône représentant une coche verte afin de valider votre modification.

    Ces deux valeurs, saisies dans la même ligne, sont maintenant configurées comme synonymes. En conséquence, United States of America sera considérée comme une valeur valide pour le type sémantique country.

  6. Cliquez sur Save and publish (Sauvegarder et publier) afin de propager la modification dans Talend Dictionary Service et la rendre disponible aux utilisateurs de Talend Data Preparation.

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez dupliquer la colonne ou réimporter votre jeu de données.

  7. Retournez à votre jeu de données avec la colonne contenant les pays des clients.
  8. Dupliquez le colonne avec le type sémantique mis à jour appliqué, Country dans cet exemple.

    Dans la barre de statistiques, sous l'en-tête de colonne, vous pouvez voir qu'il n'y a plus de valeur invalide.

Résultats

Le type sémantique country a été mis à jour manuellement pour supporter une nouvelle valeur.

À partir de maintenant, lorsque vous rencontrez des données correspondant au type sémantique country, United States of America sera considéré comme une valeur valide.