Disponible dans...
Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Vous pouvez générer un Job pour dédoublonner des données dans un fichier spécifique des Métadonnées du Studio Talend. Via les paramètres de ce Job automatiquement généré, vous pouvez choisir d'écrire les doublons et les valeurs uniques dans deux fichiers ou bases de données séparé(e)s.
La séquence de dédoublonnage de données dans un fichier spécifique comprend les étapes suivantes :
- Sélection du fichier que vous souhaitez dédoublonner.
- Choix des colonnes sur lesquelles exécuter le Job de dédoublonnage.
- Si nécessaire, définition d'une clé de bloc pour partitionner les données à traiter. Une clé de bloc est généralement nécessaire lorsque le fichier comprend de nombreuses données.
- Choix de l'emplacement où écrire les enregistrements uniques et en doublons.
- Exécution du Job généré.
Procédure
Résultats
Les valeurs uniques et en doublon dans le fichier sont identifiées et stockées dans les sorties définies, fichiers ou bases de données. Le Job généré est stocké sous le nœud Job Designs dans la vue Repository.