Mise à jour d'un type sémantique existant - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez modifier un type sémantique existant dans Talend Dictionary Service afin de changer la manière dont sont validées vos données dans Talend Data Preparation.

Les types sémantiques prédéfinis dans Talend Data Preparation se basent sur des valeurs standard, mais il est possible que vous deviez les adapter pour qu'ils correspondent à vos données. Certaines données que vous considérez comme appartenant à une catégorie prédéfinie peuvent être considérées comme invalides.

Prenez l'exemple d'un jeu de données contenant une liste de clients, avec leur adresse e-mail, date de naissance et leur pays de résidence. Vous pouvez constater que toutes les entrées pour United States of America sont considérées comme invalides, alors qu'elles ne devraient pas, puisque c'est le nom officiel du pays.

Le problème est que United States of America n'est pas une valeur attendue pour le type sémantique country, dans Talend Data Preparation. Dans ce cas, une entrée valide serait United States.

Pour éviter de futurs problèmes, vous allez mettre à jour le type sémantique country dans Talend Dictionary Service et ajouter United States of America à la liste des entrées valides. Cette modification sera automatiquement disponible dans Talend Data Preparation.

Procédure

  1. Ouvrez une invite de commande.
  2. À l'aide de la commande cd, allez dans le dossier <Dictionary_Service_Path>/command-line.
  3. Pour ajouter la valeur United States of America à la liste des pays valides, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -a -name COUNTRY -value "United States of America" sous Windows
    • ./category_manager.sh -a -name COUNTRY -value "United States of America" sous Linux

    Pour pouvoir utiliser cette commande, vous devez la saisir sur une ligne.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après saisie d'un identifiant et mot de passe valides.

  4. Pour afficher la liste des entrées sous le type sémantique country, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -e -name COUNTRY sous Windows
    • ./category_manager.sh -e -name COUNTRY sous Linux.

    Vous pouvez constater que United States of America a bien été ajouté au bas de la liste des entrées valides pour le type sémantique country.

  5. Retournez dans Talend Data Preparation et ouvrez votre jeu de données avec la colonne contenant les pays des clients.

    La modification des types sémantiques est instantanément disponible dans Talend Data Preparation, mais vous devez rafraîchir manuellement la colonne afin de la rendre visible dans vos jeux de données et préparations existants.

  6. Pour activer la modification de la liste des pays, vous pouvez :
    • importer à nouveau votre jeu de données.
    • faire une copie de la colonne de laquelle mettre à jour le type sémantique, COUNTRY dans cet exemple.

    Dans la barre de statistiques, sous l'en-tête de colonne, vous pouvez voir qu'il n'y a plus de valeur invalide.

Résultats

Le type sémantique country a été mis à jour manuellement afin de supporter une nouvelle valeur.

À partir de maintenant, lorsque vous rencontrez des données correspondant au type sémantique country, United States of America sera considéré comme une valeur valide.

Pour afficher une liste de toutes les commandes disponibles dans Talend Dictionary Service, allez au niveau <Dictionary_Service_Path>/command-line et saisissez la commande suivante, selon votre système d'exploitatione :

  • commande category_manager.bat -h pour Windows
  • commande ./category_manager.sh -h pour Linux.