Ajouter un nouveau type sémantique basé sur une expression régulière - Cloud

Guide d'utilisation de Talend Cloud Data Inventory

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Inventory
Content
Administration et monitoring > Gestion des connexions
Gouvernance de données
Qualité et préparation de données > Enrichissement de données
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Identification de données

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types de données reconnus.

Dans l'application, tous les types de données ne peuvent actuellement pas être rapprochés de l'un des types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de codice fiscale, ne sont pas reconnus pour le moment.

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous avez créé un jeu de données contenant des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Le type sémantique de la colonne contenant le numéro de Sécurité Sociale est configuré par défaut à text. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service et il sera automatiquement disponible dans votre jeu de données, afin que vos données correspondent à un type approprié.

Important : Pour des raisons de sécurité, quelques expressions régulières ne peuvent être utilisées, notamment les références arrière. Pour plus d'informations, consultez la documentation RE2/J (en anglais).

Procédure

  1. Dans le panneau à gauche de la page d'accueil, ouvrez la vue Semantic Type (Type sémantique).
  2. Cliquez sur le bouton Add semantic type (Ajouter une type sémantique).
  3. Dans le champ Name (Nom), saisissez codice fiscale.
  4. Dans le champ Description, saisissez Italian social security number.
  5. Dans la liste déroulante Type, sélectionnez Regular expression (Expression régulière).
  6. Laissez l'option Use for validation (Utiliser pour la validation) activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option, l'expression régulière ne sera utilisée que pour l'exploration de données, et aucune valeur ne sera considérée comme non valide.

  7. Dans la liste déroulante Content (Contenu), sélectionnez le type de contenu à valider, Any character (Tout caractère) dans cet exemple.
    Cette option permet d'optimiser les performances. Seules les données correspondant au type sélectionné seront validées. Vous pouvez choisir de valider uniquement les valeurs Alphabetical (Alphabétique) ou Numerical (Numérique) par rapport à une expression régulière, mais comme les numéros de Sécurité Sociale italiens contiennent les deux types de valeurs, vous devez sélectionner Any character (Tout caractère).
  8. Dans le champ Validation pattern (Modèle de validation), saisissez ^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$.
    Cette expression régulière est conçue pour rapprocher les codes fiscaux italiens, composés d'un code alphanumérique de 16 caractères. Les données correspondant à ce modèle seront identifiées comme codice fiscale (codes fiscaux italiens).
  9. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs et utilisatrices de Talend Cloud Data Inventory.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Talend Cloud. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type codice fiscale est à présent disponible dans la liste des types sémantiques avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Cloud Data Inventory pour chaque jeu de données que vous créez. Pour les jeux de données existants, vous devez actualiser l'échantillon afin de calculer à nouveau la qualité avec la nouvelle catégorie.

  10. Retournez à votre jeu de données contenant les codes de Sécurité Sociale italiens.
  11. Cliquez sur le bouton Refresh sample (Actualiser l'échantillon).

Résultats

Vos données sont mises en correspondance avec le type sémantique codice_fiscale, manuellement créé dans Talend Dictionary Service.

À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des numéros de Sécurité Sociale italiens, ils seront automatiquement mis en correspondance avec le bon type.