Ajouter un type sémantique basé sur une expression régulière - 6.5

Guide utilisateur de Talend Data Stewardship

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Administration et monitoring > Gestion des utilisateurs
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Installation et mise à niveau
Qualité et préparation de données > Gestion des tâches
EnrichPlatform
Talend Data Stewardship

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types reconnus dans Talend Data Stewardship.

Dans Talend Dictionary Service, il n'est pas possible de rapprocher et valider tous les types de données par rapport aux types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de code fiscal, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale.

Lorsque vous définissez le modèle de données dans Talend Data Stewardship, vous êtes obligé de configurer le type sémantique de la colonne contenant le numéro de Sécurité Sociale à text, car il n'y a pas de type sémantique prédéfini pour les numéros de Sécurité Sociale italiens. Vous souhaitez donc créer une catégorie plus spécifique correspondant à ce type de données : un type sémantique codice_fiscale dans ce cas.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service, il sera automatiquement disponible dans Talend Data Stewardship pour que vos données puissent être rapprochées par rapport à un type correct de données.

Procédure

  1. Créez un fichier .txt contenant l'expression régulière suivante et sauvegardez-le en tant que REGEX_CODICE_FISCALE.txt.

    Cette expression régulière est conçue pour rapprocher les numéros de Sécurité Sociale italiens, codes alphanumériques de 16 caractères.

  2. Ajoutez ce fichier dans le dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé à des fins d'exemple, mais vous pouvez le sauvegarder à l'emplacement de votre choix.

  3. Ouvrez une invite de commande et utilisez la commande cd pour aller dans au niveau du dossier <Dictionary_Service_Path>/command-line.
  4. Pour créer le type sémantique codice_fiscale dans Talend Dictionary Service et configurer ses paramètres, saisissez sur une ligne la commande suivante, selon votre système d'exploitation et exécutez-la :
    • category_manager.bat -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples\source\REGEX_codice_fiscale.txt sous Windows.
    • ./category_manager.sh -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples/source/REGEX_codice_fiscale.txt sous Linux.

    Vos identifiants d'accès à Talend Administration Center vous sont demandés. La commande est exécutée une fois que votre identifiant et votre mot de passe ont été saisis.

    Le type sémantique codice_fiscale est ajouté à la liste des catégories dans Talend Dictionary Service.

  5. Retournez dans Talend Data Stewardship et créez le modèle de données pour les données des clients italiens.
    La nouvelle catégorie sémantique codice_fiscale est disponible dans la liste des types sémantiques et vous pouvez l'utiliser pour la colonne contenant les numéros de Sécurité Sociale.

Résultats

Lorsque vous chargez les données clients dans Talend Data Stewardship, les données sont rapprochées et validées par rapport au type sémantique codice_fiscale, créé dans Talend Dictionary Service.
Pour afficher une liste de toutes les commandes disponibles dans Talend Dictionary Service, allez au niveau <Dictionary_Service_Path>/command-line et saisissez la commande suivante, selon votre système d'exploitatione :
  • category_manager.bat -h commande pour Windows.
  • ./category_manager.sh -h pour Linux.