Utilisation dynamique des données d'un autre jeu de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données
Last publication date
2024-02-21

La fonctionnalité de Lookup rapproche les données de la préparation courante à celles de son équivalent dans un jeu de données de référence, ce qui vous permet d'ajouter ces données de référence à votre préparation.

Lorsque vous utilisez la fonctionnalité de lookup dans Talend Cloud Data Preparation, les descriptions de colonnes précédemment ajoutées dans le jeu de données de lookup via Talend Cloud Data Inventory seront affichées dans la préparation.
Dans cet exemple, vous travaillez sur une préparation contenant des informations relatives aux États des États-Unis dans lesquels vivent vos clients, sous forme d'un code à deux lettres. En parallèle, vous avez un autre jeu de données dans lequel les codes à deux lettres des États des États-Unis sont rapprochés du nom complet de l'État correspondant. Vous allez utiliser la fonctionnalité de lookup pour récupérer ces informations et les ajouter à votre préparation.
Jeu de données contenant les États des États-Unis sous forme d'un code à deux lettres.

Avant de commencer

Une limitation empêche l'utilisation dans un lookup des jeux de données basés sur les connexions suivantes :
  • Google Cloud Storage (systèmes de fichiers Cloud)
  • Azure Synapse (base de données)
  • Google BigQuery (base de données)
  • Google BigTable (base de données)
  • Marketo (application métier)
  • Google Analytics (application métier)
  • NetSuite (application métier)
  • Workday (application métier)
  • Kafka (messaging)
  • RabbitMQ (messaging)

Procédure

  1. Ouvrez votre préparation.
  2. Cliquez sur le bouton de lookup pour ouvrir le panneau de lookup.

    Bouton Lookup sélectionné.

  3. Cliquez sur Select dataset (Sélectionner un jeu de données) pour sélectionner un jeu de données existant.
    Panneau Lookup ouvert.
  4. Sélectionnez le jeu de données à utiliser pour effectuer le lookup.
    Dans cette situation, vous devez ajouter le jeu de données contenant la liste des codes d'États à deux lettres et le nom correspondant. Il doit avoir été précédemment importé dans Talend Cloud Data Preparation.
    Jeu de données contenant la liste des codes d'États à deux lettres sélectionnés.
  5. Cliquez sur Select (Sélectionner).
  6. Dans les listes déroulantes Current preparation (Préparation courante) et Lookup dataset (Jeu de données de lookup), sélectionnez les colonnes correspondant à celles de votre préparation principale et de votre jeu de données de référence, les colonnes state_code et States Code dans cet exemple.
    Pour effectuer un lookup, au moins une colonne avec des données correspondantes doit être présente dans la préparation et le jeu de données à mélanger.
    Colonnes correspondantes (rapprochées) sélectionnées.
  7. Dans la liste déroulante Columns to add (Colonnes à ajouter), sélectionnez la colonne contenant les États, afin de l'ajouter au jeu de données courant, la colonne State dans cet exemple.
    Colonne importée sélectionnée.
  8. Choisissez d'appliquer ces modifications uniquement sur les lignes filtrées ou sur toutes les lignes.
  9. Cliquez sur Submit. Le nom d'État pour chaque code d'État correspondant entre la préparation principale et le jeu de données de référence est récupéré.

    La fonctionnalité de Lookup se comporte comme suit :

    • Si une valeur est commune à votre préparation principale et au jeu de données de référence, l'information supplémentaire est récupérée.
    • Si une valeur existe dans votre préparation mais pas dans votre jeu de données de référence, l'opération de lookup laisse une cellule vide dans la colonne de résultat.
    • Si une valeur du jeu de données de référence n'a pas de correspondance dans la préparation principale, l'information supplémentaire n'est simplement pas récupérée.

    La logique derrière l'opération de Talend Cloud Data Preparation correspond à une jointure Left Outer Join (Jointure externe gauche) en termes de diagrammes Venn :

    Diagramme de la jointure externe gauche.

    Appliquée à cet exemple, cela signifie que vous avez utilisé les informations communes concernant les codes d'États afin de créer une jointure et avez récupéré uniquement les informations utiles du second jeu de données pour enrichir le premier.

Résultats

Une nouvelle colonne contenant les noms entiers des États est créée avec le résultat de l'opération de lookup. Chaque client a été rapproché de son nom d'État, lorsque c'était possible.
Jeu de données contenant les États des États-Unis, avec leur nom complet.

Un autre comportement de la fonctionnalité de Lookup, non présenté dans l'exemple précédent, permet de comprendre comment sont gérés les possibles doublons et les valeurs vides dans un jeu de données de référence.

Imaginez que l'un des codes d'États manque dans votre préparation et que votre jeu de données de référence contient une entrée en doublon pour le code d'État NY. Par exemple, NY a deux valeurs possibles, New York et Nueva York, mais elle peut être la même pour les deux entrées.

Jeu de données après l'opération de Lookup.

Le résultat ci-dessus s'obtient en appliquant le comportement suivant :

  • Lorsqu'une même valeur existe plusieurs fois dans le jeu de données de référence, seule la première occurrence est mise en correspondance, Nueva York dans ce cas.
  • Une cellule vide dans votre préparation sera mise en correspondance avec une cellule vide.