Propriété du tPatternMasking pour Apache Spark Batch - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tPatternMasking s'exécutant dans le framework de Jobs Spark Batch.

Le composant tPatternMasking Spark Batch appartient à la famille Data Quality.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Créez le schéma, en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie de ce composant contient une colonne en lecture seule, ORIGINAL_MARK. La colonne indique par true ou false si l'enregistrement est un enregistrement original ou un substitut, respectivement.

 

Built-In : le schéma est créé et conservé ponctuellement pour ce composant seulement. Consultez également : le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Consultez également : le Guide utilisateur du Studio Talend .

Modifications

Définissez dans la table les champs à modifier et comment les modifier

Column to mask : sélectionnez la colonne du flux d'entrée pour laquelle générer des données similaires et modifier ses valeurs.

Vous pouvez masquer des données de plusieurs colonnes mais vous devez suivre l'ordre des champs à masquer.

Chaque colonne est traitée de manière séquentielle, ce qui signifie que les opérations des masquage de données seront effectuées sur les données de la première colonne, puis de la deuxième colonne, etc.

Field type : sélectionnez dans la liste le type de champ auquel appartiennent les données.
  • Interval : lorsque cette option est sélectionnée, configurez un jeu de valeurs numériques utilisées à des fins de masquage dans le champ Range, avec la syntaxe suivante : "<min>,<max>".

    Le nombre de caractères masqués des données d'entrée correspond au nombre de caractères de la valeur maximale.

    Par exemple, "1,999" era interprété comme "001,999", ce qui signifie que ces trois caractères des données d'entrée seront masqués par une valeur aléatoirement sélectionnée parmi la plage de valeurs définie.

  • Enumeration : lorsque cette option est sélectionnée, saisissez une liste de valeurs séparées par une virgule, à utiliser pour masquer les données dans le champ Values avec la syntaxe suivante : "value1,value2,value3".

    Chaque valeur doit avoir le même nombre de caractères. Par exemple : "30001,30002,30003" ou "FR,EN".

  • Enumeration from file : lorsque cette option est sélectionnée, configurez le chemin d'accès au fichier contenant une liste de valeurs à utiliser pour masquer les données dans le champ Path. Le fichier doit contenir une valeur par ligne et chaque valeur doit avoir le même nombre de caractères. Avant le chemin d'accès, saisissez le protocole : file:///, même si vous exécutez le Job en mode local, ou hdfs:// si le fichier est sur un cluster.
  • Date pattern (YYYYMMDD) : lorsque cette option est sélectionnée, configurez une plage d'années dans le champ Date Range, avec la syntaxe suivante : "<min_year>,<max_year>".

    Les années ne peuvent contenir que quatre chiffres, par exemple : "1900,2100".

    Les dates d'entrée à masquer doivent suivre le modèle YYYYMMDD, par exemple : 20180101.

    Par exemple, si la date d'entrée est 20180101 et la valeur dans Date Range est "1900,2100", alors 19221221 peut être la date de sortie.

Dans les colonnes Values, Path, Range et Date Range, les valeurs doivent être entourées de guillemets doubles.

Lorsque les données d'entrée sont invalides, ce qui signifie qu'une valeur n'est pas comprise dans la plage, la plage de dates ou dans l'énumération définie, la valeur générée est null.

Advanced settings

Seed for random generator

Configurez un nombre aléatoire si vous souhaitez générer les mêmes échantillons de données aléatoires de substitution pour chaque exécution du Job. Ce champ est paramétré par défaut à 12345678.

Répéter l'exécution avec une valeur différente pour ce champ génère un échantillon différent. Laissez ce champ vide si vous souhaitez générer un échantillon différent à chaque exécution du Job.

Output the original row?

Cochez cette case pour écrire en sortie les données originales en plus des données de substitution. Avoir les deux lignes de données peut être utile lors de processus de débogage ou de test.

Should Null input return NULL?

Cette case est cochée par défaut. Lorsqu'elle est cochée, le composant écrit en sortie null lorsque les valeurs d'entrée sont nulles. Sinon, il retourne la valeur par défaut lorsque l'entrée est nulle, c'est-à-dire une chaîne de caractères vide pour les chaînes de caractères, 0 pour des valeurs numériques et la date actuelle pour les valeurs de date.

Ce paramètre n'a aucun effet sur la fonction Generate Sequence. Si l'entrée est nulle, cette fonction ne retourne pas null, même si la case est cochée.

Should EMPTY input return EMPTY?

Lorsque cette case est cochée, le composant retourne les valeurs d'entrée s'il s'agit de valeurs vides. Sinon, les fonctions sélectionnées sont appliquées aux données d'entrée.

Utilisation

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez d'autres distributions, utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.