Vous pouvez créer un type sémantique basé sur un dictionnaire fermé dans le menu Semantic types (Types sémantiques), pour qu'il soit ajouté à la liste des types de données reconnus.
Dans Talend Cloud Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus.
Imaginez que vous travaillez pour une entreprise anglaise, dont les clients résident uniquement au Royaume-Uni. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Les types sémantiques pour la colonne contenant les données des comtés seront configurés par défaut à city
. Certaines des données peuvent correspondre à des noms de villes, mais vous souhaitez ajouter un type sémantique plus spécifique à vos données : le type sémantique UK_counties
dans cet exemple.
Vous allez créer ce nouveau type sémantique dans le menu dédié et il sera disponible instantanément dans votre préparation, pour que vos données soient mises en correspondance avec un type correct.
Procédure
-
Cliquez sur l'onglet Semantic types (Types sémantiques) dans le menu de gauche.
La liste des types sémantiques présents par défaut dans Talend Cloud Data Preparation s'ouvre. Pour la liste complète, consultez Types sémantiques prédéfinis.
-
Cliquez sur le bouton Add semantic type (Ajouter une type sémantique).
Le formulaire de création de type sémantique s'ouvre.
-
Dans le champ Name (Nom), saisissez le nom à donner à votre type sémantique, UK Counties , dans cet exemple.
-
Dans le champ Description, saisissez List of counties in the United Kingdom.
-
Dans la liste déroulante Type, sélectionnez Dictionary (Dictionnaire).
Vous allez créer ce type sémantique en vous basant sur une liste exhaustive de valeurs.
-
Laissez l'option Use for validation activée.
Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.
Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.
Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, le dictionnaire ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.
-
Dans la liste déroulante Validation criterion (Modèle de validation), sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value (Valeur exacte) par exemple.
- Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés au cours de la validation. Par exemple, si
Pâté-en-croûte
est votre valeur de référence, pate-eN-cRoute
sera considérée comme valide mais pas Pâté n croûte
.
- Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte durant la validation. Par exemple, si
Pâté-en-croûte
est votre valeur de référence, pate-en-croute
sera considérée comme valide, mais pas pate en croute
.
- Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les données sont considérées comme valides uniquement s'il y a une correspondance exacte avec la valeur de référence.
-
Pour ajouter la liste des comtés qui constituera le type sémantique
UK Counties
au champ Values (Valeurs), vous pouvez :
- ajouter manuellement chaque valeur. Cliquez sur le bouton plus pour saisir une valeur et cliquez sur l'icône coche afin de valider votre modification. Répétez l'opération pour chaque comté à ajouter à la liste.
- importer un fichier contenant une liste plein texte de comtés du Royaume-Uni. Cliquez sur le bouton import (Importer) afin de sélectionner le fichier à charger. Le format du fichier n'est pas important, tant que le contenu est du plein texte.
Remarque : Vous pouvez charger jusqu'à 10 Mo de contenu dans Talend Dictionary Service par tenant.
Récupérez le fichier dict_uk_counties.txt depuis l'onglet Téléchargements de la page de documentation.
Saisissez chaque valeur différente sur une ligne séparée. Les valeurs sur la même ligne, séparées par une virgule, seront considérées comme des synonymes.
Lorsque vous importez une liste depuis un fichier, les valeurs non-alphabétiques doivent être protégées par des guillemets, sinon le fichier est rejeté.
La duplication de valeurs n'est pas autorisée. Lorsque vous ajoutez manuellement des valeurs, une vérification est effectuée. Lorsque vous importez un fichier, une étape de dédoublonnage est automatiquement effectuée.
La liste complète des comtés a été ajoutée.
-
Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs et utilisatrices de Talend Cloud Data Preparation.
Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.
Le type UK Counties est à présent disponible dans la liste des types sémantiques, avec le statut Published (Publié).
Cette modification des types sémantiques est effective instantanément dans Talend Cloud Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.
-
Retournez à votre jeu de données contenant les noms des comtés.
-
Cliquez sur l'icône de menu dans l'en-tête de la colonne County et sélectionnez .
Le type de la colonne correspond à présent à la nouvelle catégorie créée.
Résultats
Vos données sont mises en correspondances avec le type sémantique UK Counties
, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des noms de comtés britanniques, ils seront automatiquement mis en correspondance avec le bon type.