Ajout d'un nouveau type sémantique basé sur une expression régulière via l'interface - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types de données reconnus dans Talend Data Preparation

Dans Talend Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de codice fiscale, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Le type sémantique de la colonne contenant le numéro de Sécurité Sociale est configuré par défaut à text. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans Talend Data Preparation, afin que vos données correspondent à un type approprié.

Procédure

  1. Ouvrez la vue Semantic types (Types sémantiques) du panneau de gauche de la page d'accueil de Talend Data Preparation et cliquez sur Add semantic type (Ajouter un type sémantique).
  2. Dans le champ Name (Nom), saisissez codice fiscale.
  3. Dans le champ Description, saisissez Italian social security number.
  4. Dans la liste déroulante Type, sélectionnez Regular expression (Expression régulière).
  5. Laissez l'option Use for validation activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option, l'expression régulière ne sera utilisée que pour l'exploration de données, et aucune valeur ne sera considérée comme non valide.

  6. Dans la liste déroulante Content (Contenu), sélectionnez le type de contenu à valider, Any character (Tout caractère) dans cet exemple.

    Cette option permet d'optimiser les performances. Seules les données correspondant au type sélectionné seront validées. Vous pouvez choisir de valider uniquement les valeurs Alphabetic (Alphabétique) ou Numeric (Numérique) par rapport à une expression régulière, mais comme les numéros de Sécurité Sociale italiens contiennent les deux types de valeurs, vous devez sélectionner Any character (Tout caractère).

  7. Dans le champ Validation pattern (Modèle de validation), saisissez ^[A-Z]\{6\}[0-9]\{2\}[A-Z][0-9]\{2\}[A-Z][0-9]\{3\}[A-Z]$.

    Cette expression régulière est conçue pour rapprocher les codes fiscaux italiens, composés d'un code alphanumérique de 16 caractères. Les données correspondant à ce modèle dans Talend Data Preparation seront identifiées comme codice fiscale (codes fiscaux italiens).

  8. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs de Talend Data Preparation.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type codice fiscale est à présent disponible dans la liste des types sémantiques avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.

  9. Retournez à votre jeu de données contenant les codes de Sécurité Sociale italiens.
  10. Cliquez sur l'icône de menu dans l'en-tête de la colonne codice_fiscale et sélectionnez this columns is a... > codice fiscale.

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

Résultats

Vos données sont mises en correspondance avec le type sémantique codice_fiscale, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importerez des jeux de données contenant des numéros de Sécurité Sociale italiens, ils correspondront automatiquement au bon type.