Ajout d'un type sémantique basé sur une expression régulière - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types reconnus dans Talend Data Preparation.

Dans Talend Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de codice fiscale, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Le type sémantique de la colonne contenant le numéro de Sécurité Sociale est configuré par défaut à text. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans Talend Data Preparation, afin que vos données correspondent à un type approprié.

Procédure

  1. Créez un fichier .txt contenant l'expression régulière suivante et sauvegardez-le en tant que REGEX_CODICE_FISCALE.txt.

    Cette expression régulière est conçue pour correspondre aux codes fiscaux italiens, qui sont des codes alphanumériques de 16 caractères. Les données correspondant à ce modèle dans Talend Data Preparation seront identifiées comme codice fiscale (codes fiscaux italiens).

  2. Ajoutez ce fichier dans le dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé à des fins d'exemple, mais vous pouvez le sauvegarder à l'emplacement de votre choix.

  3. Ouvrez une invite de commande.
  4. À l'aide de la commande cd, allez dans le dossier <Dictionary_Service_Path>/command-line.
  5. Pour créer le nouveau type sémantique codice_fiscale dans Talend Dictionary Service et configurer ses paramètres, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples\source\REGEX_codice_fiscale.txt pour Windows.
    • ./category_manager.sh -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples/source/REGEX_codice_fiscale.txt sous Linux.

    Pour pouvoir utiliser cette commande, vous devez la saisir sur une ligne.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après saisie d'un identifiant et mot de passe valides.

    Le type sémantique codice_fiscale est à présent ajouté à la liste des catégories dans Talend Dictionary Service.

  6. Retournez dans Talend Data Preparation et ouvrez votre jeu de données avec la colonne contenant les numéros de Sécurité Sociale.

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour des jeux de données existant, vous devez modifier manuellement le type de colonne.

  7. Pour appliquer le nouveau type sémantique codice_fiscale à votre colonne, cliquez sur la flèche blanche à côté du nom de la colonne.
  8. Cliquez sur This column is a... > codice_fiscale

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

Résultats

Vos données sont mises en correspondance avec le type sémantique codice_fiscale, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des numéros de Sécurité Sociale italiens, ils seront automatiquement mis en correspondance avec le bon type.

Pour afficher une liste de toutes les commandes disponibles dans Talend Dictionary Service, allez au niveau <Dictionary_Service_Path>/command-line et saisissez la commande suivante, selon votre système d'exploitation :

  • commande category_manager.bat -h pour Windows
  • commande ./category_manager.sh -h pour Linux.