Accéder au contenu principal Passer au contenu complémentaire

Sélectionner des enregistrements d'artistes en doublon des galeries Tate

Un pipeline avec une source, un processeur Field Selector et une destination.

Avant de commencer

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Téléchargez et extrayez le fichier field_selector-artists.zip. Il contient un jeu de données concernant des artistes des galeries Tate de Londres (nom, date de naissance, URL de leur page Tate,...) contient quelques noms en doublon.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké dans une connexion de test.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Select deduplicated artists (Sélectionner les artistes dédoublonnés)
  3. Cliquez sur ADD SOURCE (AJOUTER UNE SOURCE) pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une liste des artistes des galeries Tate, avec des doublons.
    Aperçu d'un échantillon de données avec des enregistrements relatifs aux artistes des galeries Tate.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Field Selector au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    select fields with distinct (sélectionner les champs avec des valeurs distinctes)
  7. Activez l'option Distinct (Distinctes) pour retourner uniquement les champs ayant des valeurs différentes et supprimer les doublons.
  8. Cliquez sur l'icône Edit (Modifier) du mode Simple pour ouvrir la fenêtree Select fields (Sélectionner des champs) :
    1. Sélectionnez name dans la liste Input (Entrée) et saisissez full_name dans la liste Output (Sortie), car vous souhaitez sélectionner et renommer les champs relatifs aux noms des artistes.
    2. Sélectionnez yearOfBirth dans la liste Input (Entrée) et year_of_birth dans la liste Output (Sortie), car vous souhaitez sélectionner et renommer les champs relatifs à la date de naissance des artistes.
    3. Sélectionnez yearOfDeath dans la liste Input (Entrée) et saisissez year_of_death dans la liste Output (Sortie), car vous souhaitez sélectionner et renommer les champs relatifs à la date de décès des artistes.
      Le panneau de configuration du processeur Field Selector affiche trois champs sélectionnés, avec l'option Distinct activée.
  9. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après les opérations de sélection et de dédoublonnage. Les noms des artistes sont dédoublonnés et seuls les champs ayant des valeurs différentes sont retournés.

    Aperçu du processeur Field Selector après dédoublonnage des enregistrements.
  10. Cliquez sur ADD DESTINATION et sélectionnez le jeu de données qui contiendra vos données réorganisées.
    Renommez-le si nécessaire.
  11. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  12. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont réorganisées selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !