Generate from file/list - 7.2

Protection des données sensibles

EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles

Cette fonction remplace aléatoirement la valeur d'entrée par une des valeurs définies par l'utilisateur.

Cette fonction s'applique aux types String ou de données numériques.

Option Description
Method La méthode Randomly sélectionne aléatoirement une valeur de la liste (ou un fichier). Deux valeurs d'entrée similaires peuvent ainsi être masquées par différentes valeurs de sortie.

La méthode Consistently s'assure que deux valeurs d'entrée similaires sont masquées par la même valeur de sortie.

Lorsque vous utilisez l'option Consistently, la probabilité de générer des doublons peut être calculée à l'aide des formules suivantes :
  • P = 1 if K < N, or
  • P = 1-K*(K-1)*(K-2)*…*(K-N+1) / K^N

P est la probabilité de générer des doublons, N la taille des données d'entrée et K la taille de la liste d'entrée donnée en paramètre.

Via cette approche, il est possible de calculer la probabilité de trouver une paire partageant la même valeur au sein d'un groupe.

Par exemple, la probabilité que, dans un groupe de n personnes, deux personnes fêtent leur anniversaire le même jour est de :
  • 2,7 % dans un groupe de cinq personnes,
  • 41,1 % dans un groupe de 20 personnes,
  • 100 % dans un groupe de 367 personnes, puisque 366 dates d'anniversaire sont possibles, en comptant le 29 février.
Extra parameter Cette fonction nécessite un paramètre supplémentaire.
Le paramètre supplémentaire peut être :
  • une liste de deux valeurs minimum, séparées par une virgule,
  • ou un chemin d'accès à un fichier contenant les valeurs.

Les valeurs doivent êtres stockées dans une chaîne de caractères et séparées par des virgules, par exemple "item1, item2, item3, etc.". Cette fonction utilise la méthode hashCode() fournit par Java pour choisir un élément d'une liste.

Si vous utilisez la version Apache Spark Batch ou Apache Spark Streaming du composant, saisissez le préfixe avant le chemin d'accès au fichier :
  • préfixe://chemin du fichier, même si vous avez exécuté le Job en mode local, ou
  • hdfs://hdpnameservice1/chemin du fichier si l'index est dans un cluster.

Les chemins vers les dossiers ne sont pas supportés.

Si le paramètre supplémentaire n'est pas défini, la fonction retourne une chaine vide ou 0.

Dans l'exemple suivant, la valeur masquée est l'une des valeurs définie comme paramètres supplémentaires.

Valeur d'entrée Method Paramètres supplémentaires Exemples de valeurs masquées
21 Randomly "help,documentation" help