tPatternUnmaskingの標準プロパティ - Cloud - 8.0

Data privacy

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント

これらのプロパティは、標準のジョブフレームワークで実行されているtPatternUnmaskingを設定するために使われます。

標準tPatternUnmaskingコンポーネントは、データクオリティファミリーに属しています。

基本設定

[Schema] (スキーマ)[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

[Sync columns] (カラムを同期)をクリックすると、ジョブで接続している先行コンポーネントからスキーマが取得されます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがマスクされたものか、オリジナルであるかどうか識別されます。

 

[Built-in] (組み込み): このコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Modifications] (変更)

テーブルで、マスクを解除するフィールドとそれらのマスクを解除する方法を定義します:

[Field type] (フィールドタイプ)[Values] (値)[Path] (パス)[Range] (範囲)および[Date Range] (日付範囲)カラムには、tPatternMaskingコンポーネントで入力データをマスクするために使用したものと同じ設定を使用します。

[Column to unmask] (マスク解除カラム):マスクを解除するデータを含む入力フローからカラムを選択します。

各カラムは順次処理され、最初のカラムからのデータに対してデータアンマスクオペレーションが実行され、2番目以降のカラムも同様に実行されます。

カラム内では、最後のデータフィールドを除いて、各データフィールドが固定長フィールドになっています。

固定長フィールドの場合は、たとえば、"30001,30002,30003"または"FR,EN"のように、各値に含まれる文字数が同じである必要があります。

カラム内の最後の[Enumeration] (列挙)または[Enumeration from file] (ファイルからの列挙)データフィールドは、可変長フィールドです。

可変長フィールドの場合は、たとえば、"30001,300023,30003"または"FR,ENG"のように、各値に含まれる文字数は常に同じとは限りません。

[Field type] (フィールドタイプ): データが属しているフィールドタイプを選択します。
  • [Interval] (間隔): 選択時に次の構文を使用して、マスクに使用する数値の範囲を[Range] (範囲)フィールドで設定します: "<min>,<max>"

    入力データからマスク解除される文字の数は、最大値の文字数に対応します。

    たとえば、"1,999""001,999"として解釈されます。すなわち、入力データからの3文字が、定義済みの値の範囲からランダムに選択された値によってマスクされます。

  • [Enumeration] (列挙): 選択時に次の構文を使用して、[Values] (値)フィールド内のデータをマスクするために使用する値のコンマ区切りリストを入力します: "value1,value2,value3"

  • [Enumeration from file] (ファイルからの列挙): 選択時に、[Path] (パス)フィールド内のデータをマスクするために使用する値のリストを含むCSVファイルへのパスを設定します。ファイルには行ごとに1つの値が含まれている必要があります。また、各値は一意である必要があります。
  • [Date pattern (YYYYMMDD)] (日付パターン(YYYYMMDD)): 選択時に次の構文を使用して、[Date Range] (日付範囲)フィールドに年の範囲を設定します: "<min_year>,<max_year>"

    年はたとえば"1900,2100"のように、必ず4桁にしてください。

    マスクする入力日付には、たとえば 20180101のように、YYYYMMDDのパターンを使用してください。

    たとえば、入力日付が20180101[Date Range] (日付範囲)内の値が"1900,2100"である場合、出力日付はたとえば19221221のようになります。

[Values] (値)[Path] (パス)[Range] (範囲)および[Date Range] (日付範囲)に入力する値は、二重引用符で囲む必要があります。

入力データが無効な場合、すなわち、値がコンポーネントで定義したパターンに一致しない場合、生成される値はnullとなります。

詳細設定

メソッド

このリストから、データをマスクするために使用したフォーマット保持暗号化(FPE)アルゴリズムFF1 with AESFF1 with SHA-2を選択します:

[FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption Standardをベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)方式は、セキュアハッシュファンクションHMAC-256に依存します。

Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。

FF1の設定

[Password or 256-bit key for FF1 methods] (FF1メソッドのパスワードまたは256ビットキー): データをマスク解除するためには、[FF1 with AES] (FF1およびAES)メソッドと[FF1 with SHA-2] (FF1およびSHA-2)メソッドで、tPatternMaskingコンポーネントでマスキングされた時に[Password or 256-bit key for FF1 methods (FF1メソッドのパスワードまたは256ビットキー)フィールドで指定されているパスワードかシークレットキーが必要です。

[Use tweaks] (微調整を使用): データのマスキング中に微調整が生成された場合は、このチェックボックスをオンにします。オンにすると、[Column containing tweaks] (微調整が含まれているカラム)リストが表示されます。微調整により、レコードのすべてのデータをマスク解除できます。

[Column containing the tweaks] (微調整が含まれているカラム): [Use tweaks] (微調整を使用)チェックボックスがオンの場合に利用できます。微調整が含まれているカラムを選択します。表示されない場合は、マスキングコンポーネントによって生成された微調整が入力コンポーネントで宣言済みであることをご確認ください。

キー導出関数: データをマスキングする場合と同じキー導出関数を選択します。デフォルトでは[PBKDF2 with 300,000 iterations] (反復回数が30万回のPBKDF2)が選択されています。

[Seed for random generator] (ランダムジェネレーターをシード)

ジョブの実行ごとに同じサンプルの代替データを生成する場合は、乱数を設定します。シードはデフォルトでは設定されません。

シードを設定しないと、コンポーネントが各ジョブの実行に対して新しいランダムシードを作成します。シードを変更して実行を繰り返すと、異なるサンプルが生成されます。

[Encoding] (エンコーディング)

リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。[Custom] (カスタム)を選択し、フィールドを空のままにすると、サポートされているエンコーディングは使用しているJVMに依存します。このフィールドはファイルエンコーディングには必須です。

[Field type] (フィールドタイプ)[Enumeration from file] (ファイルからの列挙)に設定する場合は、[Path (CSV File)] (パス(CSVファイル))でファイルパスを定義します。

[Output the original row?] (元の行を出力しますか?)

このチェックボックスをオンにすると、代替データに加えて元のデータ行が出力されます。元のデータと代替データの両方を出力すると、デバッグやテストのプロセスで役に立つ場合があります。

[Should Null input return NULL?] (Nullの入力でNullが返されるようにしますか?)

このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。それ以外の場合は、入力がnullの場合はデフォルト値、文字列値には空の文字列、数値の場合は0、日付値には現在の日付が返されます。

入力がnullの場合、チェックボックスがオンでも[Generate Sequence] (シーケンスの生成)ファンクションによりnullは返されません。

[Should EMPTY input return EMPTY?] (空の入力で空が返されるようにしますか?)

このチェックボックスをオンにすると、出力データ内で空の値は変わらずそのままになります。それ以外の場合は、選択したファンクションが入力データに適用されます。

[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信)
このチェックボックスはデフォルトで選択されています。
  • オン: データをマスク解除できる場合は、メインフローに送信されます。それ以外の場合、データは「無効な」出力フローに送信されます。
  • オフ: データはメインフローに送信されます。
無効なデータとは、パターンに一致しない値のことです。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは中間ステップです。入力フロート出力フローが必要になります。