Utilisation dynamique des données d'un autre jeu de données - Cloud

Guide d'utilisation de Talend Cloud Data Preparation

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Preparation
Content
Administration et monitoring > Gestion des connexions
Qualité et préparation de données > Gestion des jeux de données
Qualité et préparation de données > Nettoyage de données

La fonctionnalité de Lookup rapproche les données de la préparation courante à celles de son équivalent dans un jeu de données de référence, ce qui vous permet d'ajouter ces données de référence à votre préparation.

Dans cet exemple, vous travaillez sur une préparation contenant des informations relatives aux États des États-Unis dans lesquels vivent vos clients, sous forme d'un code à deux lettres. En parallèle, vous avez un autre jeu de données dans lequel les codes à deux lettres des États des États-Unis sont rapprochés du nom complet de l'État correspondant. Vous allez utiliser la fonctionnalité de Lookup pour récupérer ces informations et les ajouter à votre préparation.

Procédure

  1. Sélectionnez la colonne commune à votre préparation principale et à votre jeu de données de référence, state_code dans cet exemple.
    Pour effectuer un Lookup, au moins une colonne avec des données communes doit être présente dans la préparation et le jeu de données à mélanger.
  2. Cliquez sur le bouton de lookup dans la partie supérieure droite de l'écran pour ouvrir le panneau de lookup.

    Le panneau Add data from lookup (Utiliser le lookup pour ajouter des données) s'ouvre en bas de l'écran.

  3. Cliquez sur le bouton .
  4. Dans la boîte de dialogue qui s'ouvre, sélectionnez le jeu de données à utiliser pour effectuer l'opération de lookup et cliquez sur Add (Ajouter).
    Dans cette situation, vous devez ajouter le jeu de données contenant la liste des codes d'États à deux lettres et le nom correspondant. Il doit avoir été importé dans Talend Data Preparation au préalable.

    Le second jeu de données s'ouvre dans la partie inférieure de l'écran.

  5. Dans votre préparation et votre jeu de données de référence, cliquez sur la colonne contenant les codes d'États afin de les mettre en évidence.
  6. Cochez la case Add to Dataset (Ajouter) dans chaque colonne à inclure dans votre lookup, State dans cet exemple.
  7. Placez votre curseur sur le bouton Confirm (Confirmer) afin de prévisualiser les modifications, puis cliquez sur ce même bouton pour les appliquer.
    Le nom d'État pour chaque code d'État correspondant entre la préparation principale et le jeu de données de référence est récupéré.

    La seule exception que vous pouvez voir ici est la deuxième ligne, avec le code d'État DC, qui n'a pas pu être rapproché d'un nom complet d'État. La raison pour ceci est que DC n'est pas un vrai code d'État, d'où le statut invalide. En toute logique, DC n'est pas référencé dans le second jeu de données, qui contient uniquement les valeurs officielles. Aucune correspondance n'a été trouvée dans votre préparation pour cette valeur.

    La fonctionnalité de Lookup se comporte comme suit :

    • Si une valeur est commune à votre préparation principale et au jeu de données de référence, les informations supplémentaires sont récupérées.
    • Si une valeur existe dans votre préparation mais pas dans le jeu de données de référence, l'opération de Lookup laisse une cellule vide dans la colonne de résultat.
    • Si une valeur du jeu de données de référence ne trouve pas de correspondance dans la préparation principale, les informations supplémentaires ne sont pas récupérées.

    La logique derrière l'opération de Talend Data Preparation correspond à une jointure Left Outer Join (Jointure externe gauche) en termes de diagrammes Venn :