Ajout d'un type sémantique basé sur un dictionnaire via l'interface - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique basé sur un dictionnaire fermé dans le menu Semantic types (Types sémantiques), pour qu'il soit ajouté à la liste des types de données reconnus.

Dans Talend Cloud Data Preparation, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus comme tels.

Imaginez que vous travaillez pour une entreprise britannique, avec des clients vivant uniquement au Royaume-Uni. Dans cet exemple, vous devez nettoyer des données clients, comme leurs noms, leurs adresses e-mail ou le comté dans lequel ils vivent. Les types sémantiques pour la colonne contenant les données des comtés seront configurés par défaut à city. Certaines des données peuvent correspondre à des noms de villes, mais vous souhaitez ajouter un type sémantique plus spécifique à vos données : le type sémantique UK_counties dans cet exemple.

Vous allez créer ce nouveau type sémantique dans le menu dédié et il sera disponible instantanément dans votre préparation, pour que vos données soient mises en correspondance avec un type correct.

Procédure

  1. Cliquez sur l'onglet Semantic types (Types sémantiques) dans le menu de gauche.

    La liste des types sémantiques présents par défaut dans Talend Cloud Data Preparation s'ouvre. Pour la liste complète, consultez Types sémantiques prédéfinis.

  2. Cliquez sur le bouton Add semantic type (Ajouter une type sémantique).

    Le formulaire de création de type sémantique s'ouvre.

  3. Dans le champ Name (Nom), saisissez le nom à donner à votre type sémantique, UK Counties , dans cet exemple.
  4. Dans le champ Description, saisissez List of counties in the United Kingdom.
  5. Dans la liste déroulante Type, sélectionnez Dictionary (Dictionnaire).

    Vous allez créer ce type sémantique en vous basant sur une liste exhaustive de valeurs.

  6. Laissez l'option Use for validation activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation (Utiliser pour la validation), le dictionnaire ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  7. Dans la liste déroulante Validation criterion (Modèle de validation), sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value (Valeur exacte) par exemple.
    • Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés au cours de la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-eN-cRoute sera considérée comme valide mais pas Pâté n croûte.
    • Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte durant la validation. Par exemple, si Pâté-en-croûte est votre valeur de référence, pate-en-croute sera considérée comme valide, mais pas pate en croute.
    • Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les données sont considérées comme valides uniquement s'il y a une correspondance exacte avec la valeur de référence.
  8. Pour ajouter la liste des comtés qui constituera le type sémantique UK Counties au champ Values (Valeurs), vous pouvez :
    • ajouter manuellement chaque valeur. Cliquez sur le bouton plus pour saisir une valeur et cliquez sur l'icône coche afin de valider votre modification. Répétez l'opération pour chaque comté à ajouter à la liste.
    • importer un fichier contenant une liste plein texte de comtés du Royaume-Uni. Cliquez sur le bouton import (Importer) afin de sélectionner le fichier à charger. Le format du fichier n'est pas important, tant que le contenu est du plein texte.

      Récupérez le fichier dict_uk_counties.txt depuis l'onglet Téléchargements du panneau de gauche de la page.

      Saisissez chaque valeur différente sur une ligne séparée. Les valeurs sur la même ligne, séparées par une virgule, seront considérées comme des synonymes.

      Lorsque vous importez une liste depuis un fichier, les valeurs non-alphabétiques doivent être protégées par des guillemets, sinon le fichier est rejeté.

    La duplication de valeurs n'est pas autorisée. Lorsque vous ajoutez manuellement des valeurs, une vérification est effectuée. Lorsque vous importez un fichier, une étape de dédoublonnage est automatiquement effectuée.

    La liste complète des comtés a été ajoutée.

  9. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type sémantique au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs de Talend Cloud Data Preparation.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type UK Counties est à présent disponible dans la liste des types sémantiques, avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Cloud Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.

  10. Retournez à votre jeu de données contenant les noms des comtés.
  11. Cliquez sur l'icône du menu dans l'en-tête de la colonne County et sélectionnez this columns is a... > UK Counties.

    Le type de la colonne correspond à présent à la nouvelle catégorie créée.

Résultats

Vos données sont mises en correspondances avec le type sémantique UK Counties, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des noms de comtés britanniques, ils seront automatiquement mis en correspondance avec le bon type.