Utilisation dynamique des données d'un autre jeu de données - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

La fonctionnalité de Lookup rapproche les données de la préparation courante à celles de son équivalent dans un jeu de données de référence, ce qui vous permet d'ajouter ces données de référence à votre préparation.

Dans cet exemple, vous travaillez sur une préparation contenant des informations relatives aux États des États-Unis dans lesquels vivent vos clients, sous forme d'un code à deux lettres. En parallèle, vous avez un autre jeu de données dans lequel les codes à deux lettres des États des États-Unis sont rapprochés du nom complet de l'État correspondant. Vous allez utiliser la fonctionnalité de Lookup pour récupérer ces informations et les ajouter à votre préparation.

Procédure

  1. Sélectionnez la colonne commune à votre préparation principale et à votre jeu de données de référence, state_code dans cet exemple.
    Pour effectuer un Lookup, au moins une colonne avec des données communes doit être présente dans la préparation et le jeu de donnéess à mélanger.
  2. Cliquez sur le bouton de lookup dans la partie supérieure droite de l'écran pour ouvrir le panneau de lookup.

    Le panneau Add data from lookup (Utiliser le lookup pour ajouter des données) s'ouvre en bas de l'écran.

  3. Cliquez sur le bouton .
  4. Dans la boîte de dialogue qui s'ouvre, sélectionnez le jeu de données à utiliser pour effectuer l'opération de lookup et cliquez sur Add (Ajouter).
    Dans cette situation, vous devez ajouter le jeu de données contenant la liste des codes d'États à deux lettres et le nom correspondant. Il doit avoir été importé dans Talend Data Preparation au préalable.

    Le second jeu de données s'ouvre dans la partie inférieure de l'écran.

  5. Dans votre préparation et votre jeu de données de référence, cliquez sur la colonne contenant les codes d'États afin de les mettre en évidence.
  6. Cochez la case Add to Dataset (Ajouter) dans chaque colonne à inclure dans votre lookup, State dans cet exemple.
  7. Placez votre curseur sur le bouton Confirm (Confirmer) afin de prévisualiser les modifications, puis cliquez sur ce même bouton pour les appliquer.
    Le nom d'État pour chaque code d'État correspondant entre la préparation principale et le jeu de données de référence est récupéré.

    La seule exception que vous pouvez voir ici est la deuxième ligne, avec le code d'État DC, qui n'a pas pu être rapproché d'un nom complet d'État. La raison pour ceci est que DC n'est pas un vrai code d'État, d'où le statut invalide. En toute logique, DC n'est pas référencé dans le second jeu de données, qui contient uniquement les valeurs officielles. Aucune correspondance n'a été trouvée dans votre préparation pour cette valeur.

    La fonctionnalité de Lookup se comporte comme suit :

    • Si une valeur est commune à votre préparation principale et au jeu de données de référence, les informations supplémentaires sont récupérées.
    • Si une valeur existe dans votre préparation mais pas dans le jeu de données de référence, l'opération de Lookup laisse une cellule vide dans la colonne de résultat.
    • Si une valeur du jeu de données de référence ne trouve pas de correpsondance dans la préparation principale, les informations supplémentaires ne sont pas récupérées.

    La logique derrière l'opération de Talend Data Preparation correspond à une jointure Left Outer Join en termes de diagrammes Venn :

    Appliquée à cet exemple, cela signifie que vous avez utilisé les informations communes concernant les codes d'États afin de créer une jointure et avez récupéré uniquement les informations utiles du second jeu de données pour enrichir le premier.

Résultats

Une nouvelle colonne contenant les noms entiers des Etats est créée avec le résultat de l'opération de lookup. Chaque client a été rapproché de son nom d'État, lorsque c'était possible.

Un autre comportement de la fonctionnalité de Lookup, non présenté dans l'exemple précédent, permet de comprendre comment sont gérés les possibles doublons et les valeurs vides dans un jeu de données de référence.

Imaginez que l'un des codes d'États manque dans votre préparation et que votre jeu de données de référence contient une entrée en doublon pour le code d'État NY. Dans cet exemple, si NY a deux valeurs possibles, New York et Nueva York, le code peut donc faire référence aux deux.