Ajouter un type sémantique basé sur un dictionnaire - 6.5

Guide utilisateur de Talend Data Stewardship

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Administration et monitoring > Gestion des utilisateurs
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Installation et mise à niveau
Qualité et préparation de données > Gestion des tâches
EnrichPlatform
Talend Data Stewardship

Vous pouvez créer un type sémantique basé sur un dictionnaire Talend Dictionary Service et l'ajouter à la liste des types de données reconnus dans Talend Data Stewardship. Cependant, les valeurs en doublon ne sont pas autorisées dans un type sémantique basé sur un dictionnaire, car elles sont inutiles et peuvent ralentir le processus.

Dans Talend Data Stewardship, il n'est pas possible de rapprocher tous les types de données des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus.

Imaginez que vous travaillez pour une entreprise anglaise, dont les clients résident uniquement au Royaume-Uni. Dans cet exemple, vous devez gérer des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Vous pouvez vous demander quel type sémantique utiliser pour la colonne contenant les comtés, lorsque vous définissez le modèle de données dans Talend Data Stewardship. Vous souhaitez ajouter un type sémantique spécifique à vos données : le type sémantique UK_counties, dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service, il sera automatiquement disponible dans Talend Data Stewardship pour que vos données puissent être rapprochées par rapport à un type correct de données.

Procédure

  1. Créez un fichier .txt contenant la liste exhaustive des comtés anglais et sauvegardez-le en tant que DICT_UK_COUNTIES.txt.
    Assurez-vous de saisir un élément par ligne.

    À la différence d'un dictionnaire ouvert dont l'objectif est d'identifier des données, cette liste exhaustive joue le rôle d'un dictionnaire de valeurs fermé, pour valider les données dans Talend Data Stewardship. Les données correspondant exactement à l'une des valeurs listées sont catégorisées comme comté anglais.

  2. Ajoutez ce fichier dans le dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé à des fins d'exemple, mais vous pouvez le sauvegarder à l'emplacement de votre choix.

  3. Ouvrez une invite de commande et utilisez la commande cd pour aller dans au niveau du dossier <Dictionary_Service_Path>/command-line.
  4. Pour créer le nouveau type sémantique UK_counties dans Talend Dictionary Service et configurer ses différents paramètres, saisissez sur une ligne la commande suivante selon votre système d'exploitation sur une seule ligne et exécutez-la :
    • category_manager.bat -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples\source\DICT_UK_COUNTIES.txt sous Windows.
    • ./category_manager.sh -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples/source/DICT_UK_COUNTIES.txt sous Linux.

    Vos identifiants d'accès à Talend Administration Center vous sont demandés. La commande est exécutée une fois que votre identifiant et votre mot de passe ont été saisis.

    L'attribut -cmpl signifie complétude et est utilisé pour déterminer si le dictionnaire que vous ajoutez est un dictionnaire fermé. Il est configuré à false par défaut, mais, dans cet exemple, il doit être configuré à true. Les dictionnaires ouverts ne sont pas supportés dans Talend Data Stewardship.

    Le type sémantique UK_counties est ajouté à la liste des catégories dans Talend Dictionary Service.

  5. Retournez dans Talend Data Stewardship et créez un modèle de données pour les données des clients du Royaume-Uni.

    UK_counties est disponible dans la liste des types sémantiques et vous pouvez l'utiliser pour la colonne County.

Résultats

Lorsque vous chargez dans Talend Data Stewardship des données contenant les comtés du Royaume-Uni, elles sont automatiquement rapprochées et validées par rapport au type sémantique UK_counties manuellement créé dans Talend Dictionary Service.

Pour afficher une liste de toutes les commandes disponibles dans Talend Dictionary Service, allez au niveau <Dictionary_Service_Path>/command-line et saisissez la commande suivante, selon votre système d'exploitatione :
  • category_manager.bat -h commande pour Windows.
  • ./category_manager.sh -h pour Linux.