Propriétés du tPatternMasking Standard - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tPatternMasking s'exécutant dans le framework de Jobs Standard.

Le composant tPatternMasking Standard appartient à la famille Data Quality.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Créez le schéma, en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie de ce composant contient une colonne en lecture seule, ORIGINAL_MARK. La colonne indique par true ou false si l'enregistrement est un enregistrement original ou un substitut, respectivement.

 

Built-In : le schéma est créé et conservé ponctuellement pour ce composant seulement. Consultez également : le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Consultez également : le Guide utilisateur du Studio Talend .

Modifications

Définissez dans la table les champs à modifier et comment les modifier

Column to mask : sélectionnez la colonne du flux d'entrée pour laquelle générer des données similaires et modifier ses valeurs.

Vous pouvez masquer des données de plusieurs colonnes mais vous devez suivre l'ordre des champs à masquer.

Chaque colonne est traitée de manière séquentielle, ce qui signifie que les opérations des masquage de données seront effectuées sur les données de la première colonne, puis de la deuxième colonne, etc.

Field type : sélectionnez dans la liste le type de champ auquel appartiennent les données.
  • Interval : lorsque cette option est sélectionnée, configurez un jeu de valeurs numériques utilisées à des fins de masquage dans le champ Range, avec la syntaxe suivante : "<min>,<max>".

    Le nombre de caractères masqués des données d'entrée correspond au nombre de caractères de la valeur maximale.

    Par exemple, "1,999" sera interprété comme "001,999", ce qui signifie que ces trois caractères des données d'entrée seront masqués par une valeur aléatoirement sélectionnée parmi la plage de valeurs définie.

  • Enumeration : lorsque cette option est sélectionnée, saisissez une liste de valeurs séparées par une virgule, à utiliser pour masquer les données dans le champ Values, avec la syntaxe suivante : "value1,value2,value3".

    Chaque valeur doit avoir le même nombre de caractères. Par exemple : "30001,30002,30003" ou "FR,EN".

  • Enumeration from file : lorsque cette option est sélectionnée, configurez le chemin d'accès au fichier contenant une liste de valeurs à utiliser pour masquer les données dans le champ Path. Le fichier doit contenir une valeur par ligne et chaque valeur doit avoir le même nombre de caractères.
  • Date pattern (YYYYMMDD) : lorsque cette option est sélectionnée, configurez une plage d'années dans le champ Date Range, avec la syntaxe suivante : "<min_year>,<max_year>".

    Les années ne peuvent contenir que quatre chiffres, par exemple : "1900,2100".

    Les dates d'entrée à masquer doivent suivre le modèle YYYYMMDD, par exemple : 20180101.

    Par exemple, si la date d'entrée est 20180101 et la valeur dans Date Range est "1900,2100", alors 19221221 peut être la date de sortie.

Dans les colonnes Values, Path, Range et Date Range, les valeurs doivent être entourées de guillemets doubles.

Lorsque les données d'entrée sont invalides, ce qui signifie qu'une valeur n'est pas comprise dans la plage, la plage de dates ou dans l'énumération définie, la valeur générée est null.

Advanced settings

Seed for random generator

Configurez un nombre aléatoire si vous souhaitez générer les mêmes échantillons de données aléatoires de substitution pour chaque exécution du Job. Ce champ est paramétré par défaut à 12345678.

Répéter l'exécution avec une valeur différente pour ce champ génère un échantillon différent. Laissez ce champ vide si vous souhaitez générer un échantillon différent à chaque exécution du Job.

Output the original row?

Cochez cette case pour écrire en sortie les données originales en plus des données de substitution. Avoir les deux lignes de données peut être utile lors de processus de débogage ou de test.

Should Null input return NULL?

Cette case est cochée par défaut. Lorsqu'elle est cochée, le composant écrit en sortie null lorsque les valeurs d'entrée sont nulles. Sinon, il retourne la valeur par défaut lorsque l'entrée est nulle, c'est-à-dire une chaîne de caractères vide pour les chaînes de caractères, 0 pour des valeurs numériques et la date actuelle pour les valeurs de date.

Ce paramètre n'a aucun effet sur la fonction Generate Sequence. Si l'entrée est nulle, cette fonction ne retourne pas null, même si la case est cochée.

Should EMPTY input return EMPTY?

Lorsque cette case est cochée, le composant retourne les valeurs d'entrée s'il s'agit de valeurs vides. Sinon, les fonctions sélectionnées sont appliquées aux données d'entrée.

tStat Catcher Statistics

Cochez cette case pour collecter les données de log, aussi bien au niveau du Job qu'au niveau de chaque composant.

Utilisation

Règle d'utilisation

Ce composant est un composant intermédiaire. Il nécessite un flux d'entrée et un flux de sortie.