Suppression d'un type sémantique - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez supprimer un type sémantique dans Talend Dictionary Service, afin de le supprimer de la liste des types de données reconnus dans Talend Data Preparation.

Cette procédure s'applique aux types sémantiques prédéfinis et aux types sémantiques personnalisés.

La variété des types sémantiques compris par défaut dans Talend Data Preparation peut ne pas s'appliquer au contexte de votre entreprise. Par exemple, un nombre composé de cinq chiffres peut être interprété comme un code postal américain, ou comme un code postal français ou allemand, car ils ont le même format.

Talend Data Preparation fait automatiquement correspondre les nombres à cinq chiffres aux codes postaux français. Imaginez que vous travaillez pour une entreprise américaine, avec des données clients provenant uniquement des États-Unis, y compris les codes postaux. Avoir le mauvais type sémantique dans votre colonne contenant les codes postaux peut se révéler ennuyeux.

Dans cet exemple, la colonne ZIP du jeu de données que vous préparez peut être mise en correspondance avec quatre types.

À l'aide de Talend Dictionary Service, vous allez supprimer les autres types sémantiques correspondant à format des nombres à cinq chiffres et conserver uniquement US_POSTAL_CODE. La modification sera instantanément reflétée dans Talend Data Preparation et les nombres composés de cinq chiffres seront identifiés comme des codes postaux des États-Unis, à partir de maintenant.

Procédure

  1. Ouvrez une invite de commande.
  2. À l'aide de la commande cd, allez dans le dossier <Dictionary_Service_Path>/command-line.
  3. Pour afficher les noms des types sémantiques existant et voir ceux à supprimer, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -l -type REGEX, sous Windows.
    • ./category_manager.sh -l -type REGEX, sous Linux.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après une connexion réussie.

    La liste des types sémantiques basés sur des expressions régulières est affichée. Vous pouvez identifier le nom de ceux à supprimer, FR_POSTAL_CODE ou DE_POSTAL_CODE, entre autres.

  4. Pour supprimer le type sémantique des codes postaux français, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -d -name FR_POSTAL_CODE, sous Windows.
    • ./category_manager.sh -d -name FR_POSTAL_CODE, sous Linux.

    Le type sémantique FR_POSTAL_CODE est supprimé de la liste des types reconnus et les nombres composés de cinq chiffres ne seront plus associés aux codes postaux français.

  5. Répétez l'opération pour supprimer les autres types sémantiques correspondant aux nombres à cinq chiffres :
    • DE_POSTAL_CODE
    • FR_INSEE_CODE
  6. Retournez dans votre préparation avec la colonne contenant des codes postaux, dans Talend Data Preparation.

    La modification du type sémantique est instantanément disponible. Comme vous avez supprimé le type qui était utilisé jusqu'à présent, la colonne ZIP est automatiquement définie comme text.

  7. Pour configurer le bon type sémantique sur la colonne, cliquez sur la flèche blanche dans l'en-tête de la colonne.
  8. Placez votre curseur sur This column is a text et sélectionnez US Postal Code.

    Cette fois, les données de la colonne Zip peuvent uniquement correspondre au type sémantique US_POSTAL_CODE.

Résultats

Vous avez supprimé tous les types sémantiques compatibles avec les nombres à cinq chiffres, sauf un. À partir de maintenant, lorsque vous ajouterez des jeux de données, ce type de données sera identifié comme codes postaux des États-Unis.

Pour afficher une liste des commandes disponibles dans Talend Dictionary Service, saisissez la commande category_manager.bat -h sous Windows ou ./category_manager.sh -h sous Linux.