Utilisation dynamique des données d'un autre jeu de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données

La fonctionnalité de Lookup rapproche les données de la préparation courante à celles de son équivalent dans un jeu de données de référence, ce qui vous permet d'ajouter ces données de référence à votre préparation.

Lorsque vous utilisez la fonctionnalité de lookup dans Talend Cloud Data Preparation, les descriptions de colonnes précédemment ajoutées dans le jeu de données de lookup via Talend Cloud Data Inventory seront affichées dans la préparation.
Dans cet exemple, vous travaillez sur une préparation contenant des informations relatives aux États des États-Unis dans lesquels vivent vos clients, sous forme d'un code à deux lettres. En parallèle, vous avez un autre jeu de données dans lequel les codes à deux lettres des États des États-Unis sont rapprochés du nom complet de l'État correspondant. Vous allez utiliser la fonctionnalité de lookup pour récupérer ces informations et les ajouter à votre préparation.

Procédure

  1. Ouvrez votre préparation.
  2. Cliquez sur le bouton de lookup pour ouvrir le panneau de lookup.

  3. Cliquez sur Select dataset (Sélectionner un jeu de données) pour sélectionner un jeu de données existant.
  4. Sélectionnez le jeu de données à utiliser pour effectuer le lookup.
    Dans cette situation, vous devez ajouter le jeu de données contenant la liste des codes d'États à deux lettres et le nom correspondant. Il doit avoir été précédemment importé dans Talend Cloud Data Preparation.
  5. Cliquez sur Select (Sélectionner).
  6. Dans les listes déroulantes Current preparation (Préparation courante) et Lookup dataset (Jeu de données de lookup), sélectionnez les colonnes correspondant à celles de votre préparation principale et de votre jeu de données de référence, les colonnes state_code et States Code dans cet exemple.
    Pour effectuer un lookup, au moins une colonne avec des données correspondantes doit être présente dans la préparation et le jeu de données à mélanger.
  7. Dans la liste déroulante Columns to add (Colonnes à ajouter), sélectionnez la colonne contenant les États, afin de l'ajouter au jeu de données courant, la colonne State dans cet exemple.
  8. Choisissez d'appliquer ces modifications uniquement sur les lignes filtrées ou sur toutes les lignes.
  9. Cliquez sur Submit. Le nom d'État pour chaque code d'État correspondant entre la préparation principale et le jeu de données de référence est récupéré.

    La fonctionnalité de Lookup se comporte comme suit :

    • Si une valeur est commune à votre préparation principale et au jeu de données de référence, les informations supplémentaires sont récupérées.
    • Si une valeur existe dans votre préparation mais pas dans le jeu de données de référence, l'opération de Lookup laisse une cellule vide dans la colonne de résultat.
    • Si une valeur du jeu de données de référence ne trouve pas de correspondance dans la préparation principale, les informations supplémentaires ne sont pas récupérées.

    La logique derrière l'opération de Talend Cloud Data Preparation correspond à une jointure Left Outer Join (Jointure externe gauche) en termes de diagrammes Venn :

    Appliquée à cet exemple, cela signifie que vous avez utilisé les informations communes concernant les codes d'États afin de créer une jointure et avez récupéré uniquement les informations utiles du second jeu de données pour enrichir le premier.

Résultats

Une nouvelle colonne contenant les noms entiers des États est créée avec le résultat de l'opération de lookup. Chaque client a été rapproché de son nom d'État, lorsque c'était possible.

Un autre comportement de la fonctionnalité de Lookup, non présenté dans l'exemple précédent, permet de comprendre comment sont gérés les possibles doublons et les valeurs vides dans un jeu de données de référence.

Imaginez que l'un des codes d'États manque dans votre préparation et que votre jeu de données de référence contient une entrée en doublon pour le code d'État NY. Dans cet exemple, si NY a deux valeurs possibles, New York et Nueva York, le code peut donc faire référence aux deux.

Le résultat ci-dessus s'obtient en appliquant le comportement suivant :

  • Lorsqu'une valeur similaire existe plusieurs fois dans le jeu de données de référence, seule la première occurrence est rapprochée, Nueva York dans cet exemple.
  • Une cellule vide dans votre préparation sera rapprochée d'une cellule vide.