Scénario : Modifier des valeurs de données afin de restreindre l'utilisation de données sensibles - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avec le composant tDataMasking, vous pouvez remplacer des informations sensibles, comme les numéros de cartes de crédit ou de Sécurité Sociale par des valeurs réalistes, ce qui permet aux données de production d'être utilisée de manière sûre à des fins de test et de formation.

Ce scénario décrit un Job utilisant :

  • un composant tFixedFlowInput pour générer des données personnelles comprenant des numéros de cartes de crédit,

  • un tDataMasking pour masquer des données originales spécifiques avec des caractères ou chiffres aléatoires,

  • un tFileOutputExcel pour écrire en sortie l'ensemble de données de substitution.

Configurer le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tDataMasking et in tFileOutputExcel.

  2. Reliez les trois composants à l'aide de liens Row > Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma en cliquant sur le bouton Edit Schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront les données d'entrée initiales.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données clients que vous souhaitez remplacer par des valeurs réalistes, par exemple :

    0|4244487462024688|Nowmer|Sheri|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|SheriNowmer@@Tlaxiaco.org
    1|3458687462024688||Sheri|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|SheriNowmer@Tlaxiaco.org.org
    2|4639587470586299|Whelply|Derrick|I.|2219 Dewing Avenue|Sooke|BC|17172|Canada|211-555-7669|DerrickWhelply@Sooke.org
    3|2541387475757600|Derry|Jeanne||7640 First Ave.|Issaquah|WA|73980|USA|656-555-2272|JeanneDerry@Issaquah.org
    4|7845987500482201|Spence|Michael|J.|337 Tosca Way|Burnaby|BC|74674|Canada|929-555-7279|MichaelSpence@Burnaby.org
    5|1547887514054179|Gutierrez|Maya||8668 Via Neruda|Novato|CA|57355|$$#|387-555-7172|MayaGutierrez@Novato.org
    6|5469887517782449|Damstra|Robert|F.|1619 Stillman Court|Lynnwood|WA|90792|$$#|922-555-5465|RobertDamstra@Lynnwood.org
    7|54896387521172800|Kanagaki|Rebecca||2860 D Mt. Hood Circle|||13343|Mexico|515-555-6247|RebeccaKanagaki@Tlaxiaco.org
    8|47859687539744377||Kim|H.|6064 Brodia Court|San Andres|DF|12942|Mexico|411-555-6825|Kim@Brunner@San Andresorg
    9|35698487544797658||Brenda|C.|7560 Trees Drive||BC|$$|Canada|815-555-3975|BrendaBlumberg@Richmond.org
    10|36521487568712234|Stanz|Darren|M.|1019 Kenwal Rd.|$$#|OR|82017|USA|847-555-5443|DarrenStanz@Lake Oswego.org
    ...

Remplacer des données réelles par des valeurs réalistes

  1. Double-cliquze sur le tDataMasking pour afficher sa vue Basic settings et configurer ses propriétés.

  2. Si nécessaire, cliquez sur Sync columns afin de récupérer le schéma défini dans le composant d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir le schéma.

    Le tDataMasking propose une colonne prédéfinie, en lecture seule, comme dans la capture d'écran ci-dessous.

    Cette colonne identifie par true ou false si l'enregistrement de sortie est un enregistrement original ou un substitut, respectivement.

  4. Déplacez la ou les colonne(s) d'entrée dans le schéma de sortie, si vous souhaitez les afficher dans les résultats, cliquez sur OK et acceptez la propagation des modifications.

  5. Dans la table Modifications, cliquez sur le bouton [+] pour ajouter :

    • dans la colonne Input Column, sélectionnez les colonnes dont vous souhaitez substituer le contenu,

    • dans la colonne Function, sélectionnez dans la liste prédéfinie la fonction que vous souhaitez utiliser pour générer les données de substitution,

    • dans la colonne Parameter, saisissez une valeur, un modèle ou un chemin à utiliser par la fonction afin de substituer les données.

    Le Job génère des numéros de carte de crédit non authentiques, remplace les trois premières lettres des prénoms, remplace les noms de famille par des noms d'un fichier local puis remplace la partie avant le caractère @ dans les adresses e-mail par des noms définis dans la colonne Extra Parameter.

  6. Cliquez sur l'onglet Advanced settings et cochez la case Output the original row.

    Le Job ajoute les lignes de données originales aux données de substitution.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings et configurer ses propriétés.

  2. Configurez le nom du fichier de destination, ainsi que le nom de la feuille, puis cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tDataMasking substitue les données des colonnes sélectionnées et écrit les résultats dans un fichier de sortie.

  4. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données originales et celles de substitution.

    Le tDataMasking écrit en sortie les lignes originales et celles de substitution, avec respectivement true et false dans la colonne ORIGINAL_MARK. Il génère des numéros de cartes de crédit non authentiques, remplace les trois premières lettres des prénoms, remplace les noms par des noms d'un fichier local et remplace le caractère @ dans les adresses e-mail par les noms définis dans la vue Basic settings du composant.

    Les informations personnelles sensibles des données d'entrée ont été masquées mais les données semblent réelles et cohérentes. Les données de substitution restent utilisables à des fins différentes de la production.