Ajout d'un nouveau type sémantique basé sur une expression régulière via l'interface - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types de données reconnus dans Talend Data Preparation

Dans Talend Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de codice fiscale, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Le type sémantique de la colonne contenant le numéro de Sécurité Sociale est configuré par défaut à text. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans Talend Data Preparation, afin que vos données correspondent à un type approprié.

Procédure

  1. Ouvrez la vue Semantic types (Types sémantiques) du panneau de gauche de la page d'accueil de Talend Data Preparation et cliquez sur Add semantic type (Ajouter un type sémantique).
  2. Dans le champ Name (Nom), saisissez codice fiscale.
  3. Dans le champ Description, saisissez Italian social security number.
  4. Dans la liste déroulante Type, sélectionnez Regular expression (Expression régulière).
  5. Laissez l'option Use for validation activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation (Utiliser pour la validation), l'expression régulière ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  6. Dans la liste déroulante Content (Contenu), sélectionnez le type de contenu à valider, Any character (Tout caractère) dans cet exemple.

    Cette option permet d'optimiser les performances. Seules les données correspondant au type sélectionné seront validées. Vous pouvez choisir de valider uniquement les valeurs Alphabetic (Alphabétique) ou Numeric (Numérique) par rapport à une expression régulière, mais comme les numéros de Sécurité Sociale italiens contiennent les deux types de valeurs, vous devez sélectionner Any character (Tout caractère).

  7. Dans le champ Validation pattern (Modèle de validation), saisissez ^[A-Z]\{6\}[0-9]\{2\}[A-Z][0-9]\{2\}[A-Z][0-9]\{3\}[A-Z]$.

    Cette expression régulière est conçue pour rapprocher les codes fiscaux italiens, composés d'un code alphanumérique de 16 caractères. Les données correspondant à ce modèle dans Talend Data Preparation seront identifiées comme codice fiscale (codes fiscaux italiens).

  8. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs de Talend Data Preparation.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type codice fiscale est à présent disponible dans la liste des types sémantiques avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.

  9. Retournez à votre jeu de données contenant les codes de Sécurité Sociale italiens.
  10. Cliquez sur l'icône de menu dans l'en-tête de la colonne codice_fiscale et sélectionnez this columns is a... > codice fiscale.

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

Résultats

Vos données sont mises en correspondance avec le type sémantique codice_fiscale, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des numéros de Sécurité Sociale italiens, ils seront automatiquement mis en correspondance avec le bon type.