Mise à jour d'un type sémantique existant - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez modifier un type sémantique existant dans Talend Dictionary Service, afin de modifier la manière dont sont validées vos données dans Talend Data Preparation.

Les types sémantiques prédéfinis dans Talend Data Preparation sont basés sur des valeurs standard, mais vous pouvez les ajuster à vos données. Certaines données que vous considérez comme appartenant à une catégorie prédéfinie peuvent être considérées comme invalides.

Prenez l'exemple d'un jeu de données contenant une liste de clients, avec leur adresse e-mail, date de naissance et leur pays de résidence. Vous pouvez constater que toutes les entrées de United States of America sont considérées comme invalides, alors qu'elles ne le devraient pas, car elles utilisent le nom officiel du pays.

Le problème est que la valeur United States of America n'est pas l'une des valeurs attendues pour le type sémantique country dans Talend Data Preparation. Dans ce cas, une entrée valide serait United States.

Pour éviter à l'avenir ce genre de problèmes, vous pouvez modifier le type sémantique country dans Talend Dictionary Service et ajouter United States of America à la liste des entrées valides. La modification est automatiquement disponible dans Talend Data Preparation.

Procédure

  1. Ouvrez une invite de commande.
  2. À l'aide de la commande cd, allez dans le dossier <Dictionary_Service_Path>/command-line.
  3. Pour ajouter la valeur United States of America à la liste des pays valides, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -a -name COUNTRY -value "United States of America", sous Windows.
    • ./category_manager.sh -a -name COUNTRY -value "United States of America", sous Linux.

    Notez que pour utiliser cette commande, vous devez l'écrire sur une seule ligne.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après une connexion réussie.

  4. Pour afficher la liste des entrées sous le type sémantique country, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -e -name COUNTRY, sous Windows.
    • ./category_manager.sh -e -name COUNTRY, sous Linux.

    Vous pouvez voir que la valeur United States of America a bien été ajoutée au bas de la liste des entrées valides pour le type sémantique country.

  5. Retournez dans Talend Data Preparation et ouvrez votre jeu de données avec la colonne contenant les pays des clients.

    La modification du type sémantique est instantanément disponible dans Talend Data Preparation, mais vous devez rafraîchir manuellement la colonne pour la rendre visible dans vos jeux de données et préparations existant.

  6. Pour activer la modification de la liste des pays, vous pouvez :
    • importer à nouveau votre jeu de données.
    • faire une copie de la colonne de laquelle mettre à jour le type sémantique, COUNTRY dans cet exemple.

    Dans la barre de statistiques, sous l'en-tête de colonne, vous pouvez voir qu'il n'y a plus de valeur invalide.

Résultats

Le type sémantique country a été manuellement mis à jour pour supporter une nouvelle valeur.

À partir de maintenant, lorsque vous allez faire face à des données correspondant au type sémantique country, la valeur United States of America sera valide.

Pour afficher une liste des commandes disponibles dans Talend Dictionary Service, allez dans <Dictionary_Service_Path>/command-line et saisissez la commande suivante selon votre système d'exploitation :

  • category_manager.bat -h, sous Windows.
  • ./category_manager.sh -h, sous Linux.