Utilisation dynamique des données d'un autre jeu de données - 7.3

Guide d'utilisation de Talend Data Preparation

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données
Last publication date
2023-11-29

La fonctionnalité de Lookup rapproche les données de la préparation courante à celles de son équivalent dans un jeu de données de référence, ce qui vous permet d'ajouter ces données de référence à votre préparation.

Dans cet exemple, vous travaillez sur une préparation contenant des informations relatives aux États des États-Unis dans lesquels vivent vos clients, sous forme d'un code à deux lettres. En parallèle, vous avez un autre jeu de données dans lequel les codes à deux lettres des États des États-Unis sont rapprochés du nom complet de l'État correspondant. Vous allez utiliser la fonctionnalité de Lookup pour récupérer ces informations et les ajouter à votre préparation.

Procédure

  1. Sélectionnez la colonne commune à votre préparation principale et à votre jeu de données de référence, state_code dans cet exemple.
    Pour effectuer un Lookup, au moins une colonne avec des données communes doit être présente dans la préparation et le jeu de données à mélanger.
  2. Cliquez sur le bouton de lookup dans la partie supérieure droite de l'écran pour ouvrir le panneau de lookup.

    Le panneau Add data from lookup (Utiliser le lookup pour ajouter des données) s'ouvre en bas de l'écran.

  3. Cliquez sur le bouton .
  4. Dans la boîte de dialogue qui s'ouvre, sélectionnez le jeu de données à utiliser pour effectuer l'opération de lookup et cliquez sur Add (Ajouter).
    Dans cette situation, vous devez ajouter le jeu de données contenant la liste des codes d'États à deux lettres et le nom correspondant. Il doit avoir été importé dans Talend Data Preparation au préalable.

    Le second jeu de données s'ouvre dans la partie inférieure de l'écran.

  5. Dans votre préparation et votre jeu de données de référence, cliquez sur la colonne contenant les codes d'États afin de les mettre en évidence.
  6. Cochez la case Add to Dataset (Ajouter) dans chaque colonne à inclure dans votre lookup, State dans cet exemple.
  7. Placez votre curseur sur le bouton Confirm (Confirmer) afin de prévisualiser les modifications, puis cliquez sur ce même bouton pour les appliquer.
    Le nom d'État pour chaque code d'État correspondant entre la préparation principale et le jeu de données de référence est récupéré.

    La seule exception que vous pouvez voir ici est la deuxième ligne, avec le code d'État DC, qui n'a pas pu être rapproché d'un nom complet d'État. La raison pour ceci est que DC n'est pas un vrai code d'État, d'où le statut invalide. En toute logique, DC n'est pas référencé dans le second jeu de données, qui contient uniquement les valeurs officielles. Aucune correspondance n'a été trouvée dans votre préparation pour cette valeur.

    La fonctionnalité de Lookup se comporte comme suit :

    • Si une valeur est commune à votre préparation principale et au jeu de données de référence, l'information supplémentaire est récupérée.
    • Si une valeur existe dans votre préparation mais pas dans votre jeu de données de référence, l'opération de lookup laisse une cellule vide dans la colonne de résultat.
    • Si une valeur du jeu de données de référence n'a pas de correspondance dans la préparation principale, l'information supplémentaire n'est simplement pas récupérée.

    La logique derrière l'opération de Talend Data Preparation correspond à une jointure Left Outer Join (Jointure externe gauche) en termes de diagrammes Venn :

    Appliquée à cet exemple, cela signifie que vous avez utilisé les informations communes concernant les codes d'États afin de créer une jointure et avez récupéré uniquement les informations utiles du second jeu de données pour enrichir le premier.

Résultats

Une nouvelle colonne contenant les noms entiers des Etats est créée avec le résultat de l'opération de lookup. Chaque client a été rapproché de son nom d'État, lorsque c'était possible.

Un autre comportement de la fonctionnalité de Lookup, non présenté dans l'exemple précédent, permet de comprendre comment sont gérés les possibles doublons et les valeurs vides dans un jeu de données de référence.

Imaginez que l'un des codes d'États manque dans votre préparation et que votre jeu de données de référence contient une entrée en doublon pour le code d'État NY. Par exemple, NY a deux valeurs possibles, New York et Nueva York, mais elle peut être la même pour les deux entrées.

Le résultat ci-dessus s'obtient en appliquant le comportement suivant :

  • Lorsqu'une même valeur existe plusieurs fois dans le jeu de données de référence, seule la première occurrence est mise en correspondance, Nueva York dans ce cas.
  • Une cellule vide dans votre préparation sera mise en correspondance avec une cellule vide.