メイン コンテンツをスキップする

ファイル/リストから生成

このファンクションは、入力値をユーザー定義の値の1つにランダムに置換します。

このファンクションは、文字列または数値のデータ型に適用されます。

オプション 説明
メソッド [Randomly] (ランダム)メソッドでは、値がリスト(またはファイル)からランダムに選択されます。その結果、2つの類似する入力値が異なる入力値でマスクされる場合があります。

[Consistently] (一貫性)メソッドでは、類似する入力値が2つあれば、必ず同じ出力値でマスクされます。

[Consistently] (一貫性)メソッドを使う場合、重複が生成される確率は次の式を使って計算できます。
  • P = 1 if K < N、または
  • P = 1-K*(K-1)*(K-2)*…*(K-N+1) / K^N

ここで、Pは重複を生成する確率であり、Nは入力データサイズであり、Kはパラメーターとして指定された入力リストのサイズです。

このアプローチを使用して、グループ内で同じ値を共有するペアを見つける確率を計算できます。

たとえば、n人のグループで、2人の誕生日が同じである確率は次のとおりです。
  • 5人のグループで2.7%、
  • 20人のグループで41.1%、
  • 2月29日を含む366の誕生日があるため、367人のグループで100%。
追加パラメーター このファンクションには追加パラメーターが必要です。
追加パラメーターは次の場合があります。
  • 最小の2つの値のコンマ区切りリスト、または
  • 値を含むファイルへのパス。

値は文字列型で保管し、コンマで区切って指定する必要があります: "item1, item2, item3, etc."。このファンクションは、Javaから提供されているhashCode()メソッドを使ってリストからエレメントを選択します。

Apache Sparkバージョンのコンポーネントを使用する場合は、ファイルパスを次のように設定します。
  • ローカルモードの場合:
    • Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
    • Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
  • スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。
  • インデックスがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。

フォルダーへのパスはサポートされていません。

追加パラメーターが設定されていない場合、ファンクションは空の文字列または0を返します。

次の例では、マスクされた値は追加パラメーターとして設定された値の1つです。

入力値 メソッド 追加パラメーター マスクされた値の例
21 Randomly "help,documentation" help

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。