Exécuter le Job - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Procédure

  1. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Les données dupliquées sont générées et écrites dans le fichier de sortie.
  2. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données en doublon.
    Les enregistrements en doublon sont marqués comme false dans la colonne ORIGINAL_MARK.
    Des données ont été modifiées dans les colonnes Name, City et DOB, selon les critères définis dans la table Modifications et des doublons ont été générés selon ces modifications.
    Par exemple, si vous comparez le nom original Mrs Morgan Ross et le nom dupliqué Mrs M rganosRiss, vous pouvez constater que les deux fonctions ont été utilisées sur l'enregistrement en doublon : la lettre o a été changée en espace et le son a été remplacé dans Ross et Riss. Cependant, le code Soundex n'a pas été modifié lors du changement de son.
  3. Dans l'onglet Basic settings du composant tDuplicateRow, dans la zone Distribution of duplicates, sélectionnez une distribution différente, Bernoulli distribution par exemple et exécutez le Job.
    Des doublons différents sont générés depuis le même flux d'entrée, comme dans la capture d'écran ci-dessous.