Ajout d'un type sémantique basé sur une expression régulière - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique à partir d'une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types reconnus dans Talend Data Preparation.

Dans Talend Data Preparation, il n'est pas possible de rapprocher tous les types de données des types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de code fiscal, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Le type sémantique de la colonne contenant le numéro de Sécurité Sociale est configuré par défaut à text. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans Talend Data Preparation, afin que vos données correspondent à un type approprié.

Procédure

  1. Créez un fichier .txt contenant l'expression régulière suivante et sauvegardez-le en tant que REGEX_CODICE_FISCALE.txt.

    Cette expression régulière est conçue pour correspondre aux codes fiscaux italiens, qui sont des codes alphanumériques de 16 caractères. Les données correspondant à ce modèle dans Talend Data Preparation seront identifiées comme codes fiscaux.

  2. Ajoutez ce fichier au dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé pour l'exemple, mais vous pouvez sauvegarder vos données à l'emplacement de votre choix.

  3. Ouvrez une invite de commande.
  4. À l'aide de la commande cd, allez au dossier <Dictionary_Service_Path>/command-line.
  5. Pour créer le nouveau type sémantique codice_fiscale dans Talend Dictionary Service et configurer ses paramètres, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples\source\REGEX_codice_fiscale.txt, sous Windows.
    • ./category_manager.sh -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples/source/REGEX_codice_fiscale.txt, sous Linux.

    Notez que pour pouvoir utiliser cette commande, vous devez l'écrire sur une seule ligne.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après une connexion réussie.

    Le type sémantique codice_fiscale est à présent ajouté à la liste des catégories dans Talend Dictionary Service.

  6. Retournez dans Talend Data Preparation et ouvrez votre jeu de données avec la colonne contenant les numéros de Sécurité Sociale.

    Les modifications des types sémantiques sont instantanément prises en compte dans Talend Data Preparation, pour tout nouveau jeu de données que vous importez. Pour des jeux de données existant, vous devez modifier manuellement le type de colonne.

  7. Pour appliquer le nouveau type sémantique codice_fiscale à votre colonne, cliquez sur la flèche blanche à côté du nom de la colonne.
  8. Cliquez sur This column is a... > codice_fiscale

    Le type de colonne correspond à la nouvelle catégorie.

Résultats

Vos données correspondent au type sémantique codice_fiscale, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importerez des jeux de données contenant des numéros de Sécurité Sociale italiens, ils correspondront automatiquement au bon type.

Pour afficher une liste des commandes disponibles dans Talend Dictionary Service, allez à <Dictionary_Service_Path>/command-line et saisissez la commande suivante selon votre système d'exploitation :

  • category_manager.bat -h, sous Windows.
  • ./category_manager.sh -h, sous Linux.