Propriétés du tDataMasking pour Apache Spark Batch - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tDataMasking s'exécutant dans le framework de Jobs Spark Batch.

Le composant tDataMasking Spark Batch appartient à la famille Data Quality.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Créez le schéma, en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie de ce composant contient une colonne en lecture seule, ORIGINAL_MARK. Cette colonne indique par true ou false si l'enregistrement est original ou s'il est un enregistrement de substitution, respectivement.

 

Built-In : le schéma est créé et conservé ponctuellement pour ce composant seulement. Consultez également : le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Consultez également : le Guide utilisateur du Studio Talend .

Modification

Définissez dans la table les champs à modifier et comment les modifier

Input Column : Sélectionnez la colonne du flux d'entrée pour laquelle générer des données similaires en modifiant ses valeurs.

Ces modifications se basent sur la fonction sélectionnée dans la colonne Function et le nombre de modifications défini dans la colonne Max Modification Count.

Function : Sélectionnez la fonction décidant du type de modification à effectuer afin de générer des données similaires de substitution. Par exemple, vous pouvez décider d'avoir des valeurs similaires en remplaçant ou ajout de lettres ou de nombres, des valeurs par des synonymes d'un fichier d'index ou en supprimant des valeurs en paramétrant la fonction à Set to null.

Avant le chemin d'accès au fichier, saisissez le protocole : file:///, même si vous exécutez le Job en mode local, ou hdfs:// si le fichier est sur un cluster.

La liste Function varie selon le type de colonne. Pour plus d'informations concernant le comportement de la fonction, consultez Comportement des fonctions avec des données personnelles sensibles.

Par exemple, une colonne de type Long a une option Numeric variance dans la liste et une colonne String n'a pas cette fonction. La liste Function pour une colonne de type Date est spécifique aux dates, elle vous permet de décider du type de modification que vous souhaitez effectuer sur les valeurs de date.

-Extra Parameter : ce champ est utilisé par certaines fonctions et est désactivé lorsqu'il n'est pas applicable. Lorsqu'il est applicable, saisissez un nombre ou une lettre pour décider du comportement de la fonction sélectionnée.

Advanced settings

Seed for random generator

Configurez un nombre aléatoire si vous souhaitez générer les mêmes échantillons de données aléatoires de substitution pour chaque exécution du Job. Ce champ est paramétré par défaut à 12345678.

Répéter l'exécution avec une valeur différente pour ce champ génère un échantillon différent. Laissez ce champ vide si vous souhaitez générer un échantillon différent à chaque exécution du Job.

Output the original row

Cochez cette case pour écrire en sortie les données originales en plus des données de substitution. Avoir les deux lignes de données peut être utile lors de processus de débogage ou de test.

Should null input return null

Cette case est cochée par défaut. Lorsqu'elle est cochée, le composant écrit en sortie null lorsque les valeurs d'entrée sont nulles. Sinon, il retourne la valeur par défaut lorsque l'entrée est nulle, c'est-à-dire une chaîne de caractères vide pour les chaînes de caractères, 0 pour des valeurs numériques et la date actuelle pour les valeurs de date.

Ce paramètre n'a aucun effet sur la fonction Generate Sequence. Si l'entrée est nulle, cette fonction ne retourne pas null, même si la case est cochée.

Should empty input return empty

Lorsque cette case est cochée, le composant retourne les valeurs d'entrée s'il s'agit de valeurs vides. Sinon, les fonctions sélectionnées sont appliquées aux données d'entrée.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log, aussi bien au niveau du Job qu'au niveau de chaque composant.

Utilisation

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake (apercu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez d'autres distributions, utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.