Ajout d'un nouveau type sémantique basé sur un dictionnaire - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique basé sur un dictionnaire fermé, dans Talend Dictionary Service et l'ajouter à la liste des types de données reconnus, dans Talend Data Preparation.

Dans Talend Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus.

Imaginez que vous travaillez pour une entreprise anglaise, dont les clients résident uniquement au Royaume-Uni. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Le type sémantique de la colonne contenant les comtés sera par défaut configuré à city (ville). Certaines données correspondent réellement aux noms des villes, mais vous souhaitez ajouter un type sémantique plus spécifique à vos données : UK_counties dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans Talend Data Preparation, afin que vos données correspondent à un type approprié.

Procédure

  1. Créez un fichier .txt contenant la liste exhaustive des comtés anglais et sauvegardez-le en tant que DICT_UK_COUNTIES.txt.

    Vous devez saisir une entrée par ligne.

    À la différence d'un dictionnaire ouvert dont l'objectif est d'identifier des données, cette liste exhaustive joue le rôle d'un dictionnaire fermé de valeurs pour identifier et valider des données dans Talend Data Preparation. Les données correspondant exactement à l'une des valeurs listées seront catégorisées comme des comtés anglais.

  2. Ajoutez ce fichier dans le dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé pour l'exemple, mais vous pouvez sauvegarder le fichier à l'emplacement de votre choix.

  3. Ouvrez une invite de commande.
  4. À l'aide de la commande cd, allez dans le dossier <Dictionary_Service_Path>/command-line.
  5. Pour créer le type sémantique UK_counties dans Talend Dictionary Service et configurer ses différents paramètres, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples\source\DICT_UK_COUNTIES.txt pour Windows
    • ./category_manager.sh -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples/source/DICT_UK_COUNTIES.txt sous Linux.

    Pour pouvoir utiliser cette commande, vous devez la saisir sur une ligne.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après saisie d'un identifiant et mot de passe valides.

    L'attribut -cmpl signifie "completeness" (complétude) et est utilisé pour déterminer si le dictionnaire que vous ajoutez est ouvert ou fermé. Il est configuré à false par défaut, mais, dans cet exemple, il doit être configuré à true.

    Le type sémantique UK_counties est ajouté à la liste des catégories dans Talend Dictionary Service.

  6. Retournez dans Talend Data Preparation et ouvrez le jeu de données avec la colonne contenant les noms de comtés.

    La modification des types sémantiques est instantanément disponible dans Talend Data Preparation, mais vous devez rafraîchir manuellement la colonne afin de la rendre visible dans vos jeux de données et préparations existants.

  7. Pour rendre actifs les modifications dans les types sémantiques, vous pouvez :
    • importer à nouveau votre jeu de données.
    • copier la colonne de laquelle modifier le type sémantique, COUNTY dans cet exemple.

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

Résultats

Vos données correspondent à présent au type sémantique UK_counties, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des noms de comtés britanniques, ils seront automatiquement mis en correspondance avec le bon type.

Pour afficher une liste de toutes les commandes disponibles dans Talend Dictionary Service, allez au niveau <Dictionary_Service_Path>/command-line et saisissez la commande suivante, selon votre système d'exploitatione :

  • commande category_manager.bat -h pour Windows
  • commande ./category_manager.sh -h pour Linux.