Accéder au contenu principal

Generate from file/list

Cette fonction remplace aléatoirement la valeur d'entrée par une des valeurs définies par l'utilisateur ou l'utilisatrice.

Cette fonction s'applique aux types String ou de données numériques.

Option Description
Method La méthode Randomly sélectionne aléatoirement une valeur de la liste (ou un fichier). Deux valeurs d'entrée similaires peuvent ainsi être masquées par différentes valeurs de sortie.

La méthode Consistently s'assure que deux valeurs d'entrée similaires sont masquées par la même valeur de sortie.

Lorsque vous utilisez l'option Consistently, la probabilité de générer des doublons peut être calculée à l'aide des formules suivantes :
  • P = 1 if K < N, or
  • P = 1-K*(K-1)*(K-2)*…*(K-N+1) / K^N

P est la probabilité de générer des doublons, N la taille des données d'entrée et K la taille de la liste d'entrée donnée en paramètre.

Via cette approche, il est possible de calculer la probabilité de trouver une paire partageant la même valeur au sein d'un groupe.

Par exemple, la probabilité que, dans un groupe de n personnes, deux personnes fêtent leur anniversaire le même jour est de :
  • 2,7 % dans un groupe de cinq personnes,
  • 41,1 % dans un groupe de 20 personnes,
  • 100 % dans un groupe de 367 personnes, puisque 366 dates d'anniversaire sont possibles, en comptant le 29 février.
Extra parameter Cette fonction nécessite un paramètre supplémentaire.
Le paramètre supplémentaire peut être :
  • une liste de deux valeurs minimum, séparées par une virgule,
  • ou un chemin d'accès à un fichier contenant les valeurs.

Les valeurs doivent êtres stockées dans une chaîne de caractères et séparées par des virgules, par exemple "item1, item2, item3, etc.". Cette fonction utilise la méthode hashCode() fournit par Java pour choisir un élément d'une liste.

Si vous utilisez la version Apache Spark du composant, configurez le chemin d'accès au fichier comme suit :
  • En mode local :
    • Apache Spark 3.1 et versions précédentes : prefix://file path ou file:///file path.
    • Apache Spark 3.2 et supérieures : file:///file path.
  • En modes Standalone et Yarn : prefix://file path.
  • Si l'index se situe dans un cluster : hdfs://hdpnameservice1/file path.

Les chemins vers les dossiers ne sont pas supportés.

Si le paramètre supplémentaire n'est pas défini, la fonction retourne une chaine vide ou 0.

Dans l'exemple suivant, la valeur masquée est l'une des valeurs définie comme paramètres supplémentaires.

Valeur d'entrée Method Paramètres supplémentaires Exemples de valeurs masquées
21 Randomly "help,documentation" help

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !