Dédoublonnage de lignes

Dédoublonnage de lignes - 8.0

Guide d'utilisation de Talend Data Preparation

Version

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Preparation

Content

Qualité et préparation de données > Nettoyage de données

Last publication date

2024-03-27

Vous pouvez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour facilement supprimer les lignes qui sont des doublons exacts, et ne conserver qu'un seul exemplaire dans votre jeu de données.

Remarque : Cette fonction n'est pas compatible avec les Jobs Spark et les exports S3.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans cet exemple, vous avez reçu un jeu de données contenant des informations clients, où toutes les lignes sont systématiquement dupliquées.

Vous allez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour nettoyer facilement votre jeu de données.

Procédure

Cliquez sur l'en-tête de n'importe quelle colonne du jeu de données.
Cliquez sur l'onglet Table du panneau des fonctions pour afficher les fonctions qui peuvent être appliquées à l'ensemble du jeu de données.
Passez votre souris sur la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour en afficher un aperçu, et cliquez pour l'appliquer.

Résultats

Toutes les informations dupliquées sont supprimées en une seule action, ne laissant dans le jeu de données qu'une seule occurrence correcte de chaque ligne.