Mise à jour d'un type sémantique existant via l'interface - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez modifier un type sémantique existant dans Talend Dictionary Service afin de changer la manière dont sont validées vos données dans Talend Data Preparation.

Les types sémantiques prédéfinis dans Talend Data Preparation se basent sur des valeurs standard, mais il est possible que vous deviez les adapter pour qu'ils correspondent à vos données. Certaines données que vous pensez appartenir à une catégorie prédéfinie peuvent être considérées comme invalides.

Imaginez un jeu de données contenant une liste de clients, avec leur adresse e-mail, leur date de naissance et le pays dans lequel ils vivent. Vous pouvez constater que toutes les entrées pour United States of America sont considérées comme invalides, alors qu'elles ne devraient pas, puisque c'est le nom officiel du pays.

Le problème est que United States of America n'est pas une valeur attendue pour le type sémantique country, dans Talend Data Preparation. L'entrée valide serait United States.

Pour éviter de futurs problèmes, vous allez mettre à jour le type sémantique country dans Talend Dictionary Service et ajouter United States of America à la liste des entrées valides. Cette modification sera automatiquement disponible dans Talend Data Preparation.

Procédure

  1. Ouvrez la vue Semantic types du panneau de gauche de la page d'accueil de Talend Data Preparation.
  2. Dans la liste des types sémantiques existants, cliquez sur le type Country pour l'ouvrir.
    Dans cette fenêtre, tous les paramètres du type sémantique peuvent être modifiés, notamment la liste des entrées utilisées pour explorer ou valider des données.
  3. Dans la liste Values, placez votre curseur sur l'entrée United States et cliquez sur l'icône représentant un crayon, à droite.
  4. Après United States, saisissez United States of America comme valeur secondaire, séparée par une virgule.
  5. Cliquez sur l'icône représentant une coche verte afin de valider votre modification.

    Ces deux valeurs, saisies dans la même ligne, sont maintenant configurées comme synonymes. En conséquence, United States of America sera considérée comme une valeur valide pour le type sémantique country.

  6. Cliquez sur Save and publish afin de propager la modification dans Talend Dictionary Service et la rendre disponible aux utilisateurs de Talend Data Preparation.

    Les modifications des types sémantiques sont effectives instantanément dans Talend Data Preparation pour les nouveaux jeux de données que vous importez. Pour les jeux de données existants, vous devez dupliquer la colonne ou réimporter votre jeu de données.

  7. Retournez à votre jeu de données avec la colonne contenant les pays des clients.
  8. Dupliquez le colonne avec le type sémantique mis à jour appliqué, Country dans cet exemple.

    Vous pouvez voir, dans la barre de statistiques sous l'en-tête de la colonne, qu'il n'y a plus de valeur invalide.

Résultats

Le type sémantique country a été mis à jour manuellement afin de supporter une nouvelle valeur.

À partir de maintenant, lorsque vous traitez des données mises en correspondance avec le type sémantique country, United States of America sera considérée comme une valeur valide.