Ajout d'un nouveau type sémantique composé - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Vous pouvez créer un type sémantique composé afin de grouper d'autres types sémantiques publiés sur le serveur de Talend Dictionary Service et l'ajouter à la liste des types reconnus dans Talend Data Preparation.

Vous pouvez mélanger tous les types sémantiques lors de la création d'un type composé et un type sémantique composé peut référencer d'autres types composés, si tous les types fils sont déjà publiés.

Dans cet exemple, vous devez préparer un fichier contenant des informations relatives à des clients des États-Unis, du Royaume-Uni, d'Allemagne et de France. Une des colonnes de ce jeu de données contient des codes postaux de ces différents pays, donc de différents formats. Dans cette situation, Talend Data Preparation applique le type sémantique correspondant mieux aux valeurs de la colonne, US Postal code par exemple. Les codes postaux allemands, français et britanniques (le reste des données), seront donc considérés comme invalides.

Pour rendre Talend Data Preparation plus adapté à la situation, vous allez créer un type composé, regroupant les différents types sémantiques utilisés pour valider les codes postaux.

Avant de commencer

Ce type composé sera utilisé pour définir les valeurs considérées comme bonnes ou mauvaises lors de l'application sur une colonne donnée.

Procédure

  1. Ouvrez la vue Semantic types (Types sémantiques) du panneau de gauche de la page d'accueil de Talend Data Preparation et cliquez sur Add semantic type (Ajouter un type sémantique).
  2. Dans le champ Name (Nom), saisissez Postal code.
  3. Dans le champ Description (Description), saisissez American, British, German and French postal codes.
  4. Dans la liste Type, sélectionnez Compound type (Type composé).
  5. Laissez l'option Use for validation activée.

    Ce type composé sera utilisé pour définir les valeurs considérées comme bonnes ou mauvaises lors de l'application sur une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, le type composé ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  6. Dans la liste déroulante Children types (Types fils), sélectionnez les types sémantiques à regrouper sous ce type composé Postal code.
  7. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le nouveau type composé au serveur de Talend Dictionary Service et le rendre disponible aux utilisateurs de Talend Data Preparation.

    Cliquer sur Save as draft (Sauvegarder en tant que brouillon) signifie que le type sémantique sera stocké dans Talend Dictionary Service, mais ne sera pas diffusé dans les applications Web de Talend. Cela vous permet de choisir le moment auquel vous rendez publics vos types sémantiques.

    Le type Postal code est à présent disponible dans la liste des types sémantiques disponibles, avec le statut Published (Publié).

    Cette modification des types sémantiques est effective instantanément dans Talend Data Preparation pour chaque nouveau jeu de données que vous importez. Pour les jeux de données existants, vous devez modifier manuellement le type de colonne ou réimporter votre jeu de données.

  8. Retournez dans votre jeu de données contenant les codes postaux des différents pays.
  9. Cliquez sur l'icône de menu dans l'en-tête de la colonne contenant les codes postaux et sélectionnez this columns is a... > Postal code.

Résultats

Vos données sont mises en correspondance avec le type composé Postal code, manuellement créé dans Talend Dictionary Service. À partir de maintenant, lorsque vous importez de nouveaux jeux de données contenant des codes postaux, ils seront automatiquement mis en correspondance avec le bon type.