tDataShuffling - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le composant tDataShuffling mélange les données d'une table d'entrée. Il remplace les valeurs originales par d'autres valeurs de la même colonne, d'une ligne différente.

Si vous définissez une ou plusieurs colonnes comme groupe de partitions, la table entière est divisée en un nombre donné de partitions. Ces partitions partagent les mêmes valeurs dans les colonnes partitionnées. Ensuite, le processus de mélange est appliqué indépendamment à chaque partition, puis toutes les partitions sont ensuite fusionnées en une table de sortie.

Si vous ne configurez pas les colonnes du groupe de partitions, le processus de mélange est appliqué à toute la table d'entrée.

Objectif

Le tDataShuffling vous permet de mélanger les données d'une table d'entrée afin de protéger les données tout en ayant un jeu de données fonctionnel. Les données restent utilisables, par exemple pour le test et l'apprentissage.

Selon la solution Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

Propriétés du tDataShuffling

Famille du composant

Data Quality

 

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Shuffling columns

Définissez les groupes de colonnes à mélanger :

  • Column : sélectionnez les colonnes à mélanger.

  • Group ID : sélectionnez l'identifiant du groupe pour grouper les colonnes. Les colonnes ayant le même identifiant de groupe sont mélangées ensemble.

    Ce champ est configuré à 0 par défaut. Cela signifie que la colonne ne fait pas partie du processus de mélange.

Advanced settings

Seed for random generator

Configurez un nombre aléatoire si vous souhaitez mélanger les données dans le même ordre pour chaque exécution du Job. Ce champ est configuré par défaut à 12345678.

Répéter l'exécution avec une valeur différente pour ce champ mélange les données dans un ordre différent. Laissez ce champ vide si vous souhaitez que les données soit mélangées dans un ordre aléatoire à chaque exécution du Job.

 

Buffer size

Saisissez la taille de la mémoire physique, en nombre de lignes, que vous souhaitez allouer aux données traitées.

 

Partitioning columns

Ajoutez les colonnes utilisées pour partitionner les données.

Les colonnes sélectionnées séparent les processus de mélange en petites partitions. Seules les lignes d'une même partition peuvent être mélangées.

 

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Utilisation

Ce composant est généralement utilisé comme composant intermédiaire et nécessite un composant d'entrée et un composant de sortie.

Scénario : Mélanger des valeurs de données afin de restreindre l'utilisation de données sensibles

Avec le composant tDataShuffling, vous pouvez mélanger des informations sensibles pour les remplacer par d'autres valeurs pour la même colonne, d'une ligne différente, permettant ainsi aux données de production d'être utilisées pour le test et l'apprentissage.

Ce scénario décrit un Job utilisant :

  • un tFixedFlowInput pour générer des données personnelles, notamment des numéros de carte de crédit,

  • un tDataShuffling pour mélanger les données originales et remplacer les valeurs par d'autres valeurs de la même colonne, d'une ligne différente,

  • un tFileOutputExcel pour écrire en sortie le jeu de données mélangées.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tDataShuffling et un tFileOutputExcel.

  2. Connectez les trois composants à l'aide de liens Row > Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Component.

  2. Créez le schéma à l'aide du bouton Edit Schema.

    Dans la fenêtre qui s'ouvre, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront les données d'entrée d'origine : customer id, credit_card, lname, fname, mi, address1, city, state_province, postal_code, country, phone et email.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données clients à mélanger, par exemple :

    0|4244487462024688|Nowmer|Sheri|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|SheriNowmer@@Tlaxiaco.org
    1|3458687462024688|Nowmer|Alan|A.|2433 Bailey Road|Tlaxiaco|Oaxaca|15057|Mexico|271-555-9715|AlanNowmer@Tlaxiaco.org.org
    2|4639587470586299|Whelply|Derrick|I.|2219 Dewing Avenue|Sooke|BC|17172|Canada|211-555-7669|DerrickWhelply@Sooke.org
    3|2541387475757600|Derry|Jeanne||7640 First Ave.|Issaquah|WA|73980|USA|656-555-2272|JeanneDerry@Issaquah.org
    4|7845987500482201|Spence|Michael|J.|337 Tosca Way|Burnaby|BC|74674|Canada|929-555-7279|MichaelSpence@Burnaby.org
    5|1547887514054179|Gutierrez|Maya||8668 Via Neruda|Novato|CA|57355|$$#|387-555-7172|MayaGutierrez@Novato.org
    6|5469887517782449|Damstra|Robert|F.|1619 Stillman Court|Lynnwood|WA|90792|$$#|922-555-5465|RobertDamstra@Lynnwood.org
    7|54896387521172800|Kanagaki|Rebecca||2860 D Mt. Hood Circle|San Andres|DF|13343|Mexico|515-555-6247|RebeccaKanagaki@Tlaxiaco.org
    8|47859687539744377|Brunner|Kim|H.|6064 Brodia Court|San Andres|DF|12942|Mexico|411-555-6825|Kim@Brunner@San Andresorg
    9|35698487544797658|Blumberg|Brenda|C.|7560 Trees Drive|Sooke|BC|$$|Canada|815-555-3975|BrendaBlumberg@Richmond.org
    10|36521487568712234|Stanz|Darren|M.|1019 Kenwal Rd.|$$#|OR|82017|USA|847-555-5443|DarrenStanz@Lake Oswego.org
    ...

Configurer le composant tDataShuffling

  1. Double-cliquez sur le tDataShuffling pour afficher sa vue Basic settings et définir ses propriétés.

  2. Cliquez sur Sync columns afin de récupérer le schéma défini dans le composant d'entrée.

  3. Dans la table Shuffling columns, cliquez quatre fois sur le bouton [+], pour ajouter quatre lignes, puis :

    • dans la colonne Column, sélectionnez les colonnes desquelles mélanger les données,

    • dans la colonne Group ID, sélectionnez l'identifiant de groupe pour chaque colonne. Les colonnes ayant le même identifiant de groupe sont mélangées ensemble.

    Dans l'exemple ci-dessus, il y a deux groupes de colonnes à mélanger :

    • Group ID 1 : credit_card

    • Group ID 2 : lname (nom de famille), fname (prénom) et mi (initiale du deuxième prénom)

    Le Job va remplacer les numéros de cartes de crédit de la colonne credit_card par des valeurs de différentes lignes. Il va également conserver ensemble les noms de famille, prénoms et initiales du deuxième prénom des colonnes lname, fname et mi, puis les remplacer par des valeurs de lignes différentes.

  4. Cliquez sur l'onglet Advanced settings.

    Dans la colonne Partitioning columns, cliquez sur le bouton [+] pour ajouter une ligne.

    Le Job va mélanger les lignes de données originales partageant une même valeur pour les colonnes de partitions.

    Dans l'exemple ci-dessus, le composant est configuré pour appliquer le processus de mélange aux lignes partageant la même valeur pour la colonne country.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings et définissez ses propriétés.

  2. Configurez le nom du fichier de destination ainsi que le nom de la feuille et cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tDataShuffling mélange les données dans les colonnes sélectionnées et écrit les résultats dans un fichier de sortie.

  4. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données mélangées.