Configurer les données dupliquées - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tDuplicateRow pour afficher sa vue Basic settings et définir ses propriétés.
  2. Cliquez sur le bouton Edit schema pour voir les colonnes d'entrée et de sortie et apporter des modifications au schéma de sortie, si nécessaire.
    Le schéma de sortie de ce composant contient une colonne en lecture seule, ORIGINAL_MARK. Cette colonne indique, par true ou false, si l'enregistrement est un enregistrement original ou un doublon. Il y a un seul enregistrement original par groupe de doublons.
  3. Dans le champ Percentage of duplicated records, saisissez le pourcentage de lignes dupliquées que vous souhaitez avoir dans le flux de sortie.
  4. Dans la zone Distribution of duplicates, sélectionnez la distribution Bernoulli distribution (théorie des probabilités) que vous souhaitez utiliser pour générer des doublons. Configurez une moyenne du nombre d'enregistrements en doublon que vous souhaitez obtenir dans chaque groupe.
  5. Cliquez quatre fois sur le bouton [+] sous la table Modifications pour ajouter quatre lignes à la table.
    Cette table vous permet de définir les valeurs à modifier dans une colonne donnée et de les modifier afin de générer des doublons :
    1. Dans la colonne Input Column, sélectionnez la colonne du flux d'entrée à partir de laquelle vous souhaitez générer les doublons, Name, City et DOB dans cet exemple.
      Lorsque vous ajoutez une même colonne deux fois dans la table et que vous sélectionnez différentes fonctions, vous générez des doublons du même champ avec différentes valeurs. Par exemple, dans ce scénario, modifiez les noms en doublon à l'aide de la fonction Soundex replace, avec une probabilité de 50 %, puis modifiez-les à nouveau à l'aide de la fonction Exchange characters avec une probabilité de 50 %. Cela signifie que le champ Name de l'enregistrement en doublon peut n'avoir pas été modifié après la seconde fonction avec la probabilité suivante : (1-0.5)*(1-0.5) = 0.25.
      Si vous souhaitez vous assurer que tous les enregistrements en doublon sont modifiés, saisissez 1 dans la colonne Modification Rate.
    2. Dans la colonne Modification Rate, saisissez une probabilité pour les enregistrements en doublon que vous souhaitez générer depuis la colonne d'entrée.
    3. Dans la liste Function, sélectionnez la fonction décidant des modifications à apporter à une valeur afin de la dupliquer.
      Dans cet exemple, il y a des noms dupliqués ayant des sons et caractères différents et des noms de villes ayant des sons différents. Les valeurs des dates dans la colonne des dates de naissance sont modifiées au hasard.
    4. Dans la colonne Max Modification Count, saisissez un nombre maximal de valeurs à modifier dans chaque champ.
  6. Cliquez sur l'onglet Advanced settings et saisissez un nombre dans le champ Seed for random generator.
    En saisissant un nombre dans ce champ, vous générez l'échantillon de données dupliquées pour chaque exécution du Job. Modifiez la valeur si vous souhaitez générer un échantillon différent.