Tirer parti des analyses sémantiques pour transformer des codes États en États à l'aide du remplissage par magie - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données

En se basant sur l'exemple que vous allez saisir, le remplissage par magie peut également reconnaître et formater les données correspondant à certains types sémantiques : pays, adresses e-mail, URL, dates, codes postaux des États-Unis et États.

Par exemple, un jeu de données comportant des données clients, telles que leur nom, adresse e-mail, ou encore l'État dans lequel ils vivent. Ce scénario présente comment utiliser le remplissage par magie pour convertir les codes États à deux lettres en leur nom de pays complet correspondant, pour avoir les données dans un format plus lisible.

Procédure

  1. Cliquez sur l'en-tête de la colonne state pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Magic fill (remplir par magie) et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Dans le champ Input 1, saisissez l'une des valeurs de la colonne state que vous souhaitez transformer, NY par exemple.
  4. Dans le champ Output 1, saisissez le nom complet de l'État correspondant : New-York.
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent provenir de votre jeu de données, ou vous pouvez utiliser d'autres valeurs de codes États valides des États-Unis provenant d'ailleurs. Plus vous saisissez d'exemples, plus la transformation sera identifiée précisement par la fonction.
  5. Saisissez plus d'exemples avant-après dans les champs restant :
    • AZ comme Input 2 et Arizona comme Output 2,
    • TX comme Input 3 et Texas comme Output 3,
    • IN comme Input 4 et Indiana comme Output 4,
    • MI comme Input 5 et Michigan comme Output 5.

    En se basant sur ces exemples, la fonction comprendra que toutes les entrées (Input) saisies sont des codes États à deux lettres et que les sorties (Output) sont des noms d'États complets. Elle appliquera la transformation correspondante au reste de la colonne.

  6. Cliquez sur Submit.

Résultats

Une nouvelle colonne est créée, le formatage défini par vos exemples a été appliqué au reste des codes États. Vous pouvez voir dans l'en-tête de la colonne que les nouvelles valeurs correspondent au type sémantique US State, ce qui leur assure d'avoir le bon format. Vous pouvez à présent supprimer la colonne state.