データマスキングの効果 - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29
Mask data (obfuscation)ファンクションを使用するカラムのセマンティックタイプに応じて、使用可能なパラメーターとその効果は異なります。

テキストとセマンティックタイプ

テキストデータの場合、Talend Data Preparationは、事前定義済みのセマンティックタイプの1つか、またはカスタムセマンティックタイプの1つか、または[Text] (テキスト)タイプのうちのいずれかを自動的に提案します。事前定義済みおよびカスタムセマンティックタイプの場合は、正規表現または値のディクショナリーをベースにできます。

以下のテーブルには、[Text] (テキスト)タイプのカラムに使用できるマスキングルーチン、または事前定義済みもしくはカスタムセマンティックタイプのいずれか、および、たとえば値[Talend in 2018 is awesome] (2018年のTalendは素晴らしい)に対するその効果がリスト表示されます。

マスキングルーチン 説明 パラメーター 出力
[Semantic masking] (セマンティックマスキング) 正規表現ベースのセマンティックタイプの場合、ファンクションは正規表現のパターンに対応するランダムレコードを生成します。
注: dk.brics.automatonライブラリーと互換性のない正規表現で作成されたセマンティックタイプでは、セマンティックマスキングがサポートされず、レコードの文字はすべてランダムに置き換えられます。
マスキングモード: RandomまたはRepeatable Äåòçôî ëð 1889 òn äipïåvu
ディクショナリーベースのセマンティックタイプの場合、ファンクションは、最初にセマンティックタイプの作成に使用されたディクショナリーから抽出された値でレコードをランダムに置換します。
[Keep characters between two positions] (2つの位置の間の文字を保持) 選択した間隔に含まれているすべての文字がそのまま維持され、間隔の外にある文字は削除されます。 開始インデックス: 11 2018 is awesome
終了インデックス: 25
[Generate from Char Pattern] (文字パターンから生成) ランダム文字のレコードは、指定のパターンから作成されます。 文字パターン: aaaaaa 9999 aaaaaaa õaßayè 8908 æluäco
マスキングモード: RandomまたはRepeatable
[Remove characters between two positions] (2つのポジション間の文字を削除) 選択した間隔に含まれているすべての文字が削除され、間隔の外にある文字はそのまま保たれます。 開始インデックス: 7 Talend is awesome
終了インデックス: 14
[Replace all] (すべて置換) すべての文字が指定の代用に置き換えられます。 置換: x xxxxxxxxxxxxxxxxxxxxxxxxx
マスキングモード: RandomまたはRepeatable
[Replace all digits] (すべての桁を置換) すべての桁が指定の代用に置き換えられます。文字はそのまま保たれます。 置換: 9 Talend in 9999 is awesome
マスキングモード: RandomまたはRepeatable
[Replace all letters] (すべての文字を置換) すべての文字が指定の代用に置き換えられます。桁はそのまま保たれます。 置換: y yyyyyy yy 2018 yy yyyyyyy
マスキングモード: RandomまたはRepeatable
[Replace characters between two positions] (2つの位置の間の文字を置換) 選択した間隔に含まれているすべての文字が置換され、間隔の外にある文字はそのまま保たれます。 開始インデックス: 1 aaaaaa in 2018 is awesome
終了インデックス: 6
置換: a
マスキングモード: RandomまたはRepeatable
[Replace n first characters] (N番目の文字を置換) 最初のn文字が指定の代用に置き換えられ、続きの文字はそのまま保たれます。 文字数: 17 @@@@@@@@@@@@@@@@@ awesome
置換: @
マスキングモード: RandomまたはRepeatable
[Replace n last characters] (最後のN個の文字を置換) 最後のn文字が指定の代用に置き換えられ、前の文字はそのまま保たれます。 文字数: 10 Talend in 2018 !!!!!!!!!!
置換: !
マスキングモード: RandomまたはRepeatable
[Keep n first digits and replace following ones] (N番目の数字を保持し、次を置換) 最初のn桁がそのまま保たれ、続きの桁はランダムな桁に置き換えられます。数字以外の文字はそのまま保たれます。 桁数: 1 Talend in 2436 is awesome
マスキングモード: RandomまたはRepeatable
[Keep n last digits and replace previous ones] (最後からN桁を保持して前を置換) 最後のn桁がそのまま保たれ、前の桁はランダムな桁に置き換えられます。数字以外の文字はそのまま保たれます。 桁数: 2 Talend in 1618 is awesome
マスキングモード: RandomまたはRepeatable

数値

以下のテーブルには、数値を含むカラムに使用できる[Integer] (整数)または[Decimal] (10進数)タイプのマスキングルーチン、および、たとえば値21803に対するその効果がリスト表示されます。

マスキングルーチン パラメーター 出力
[Replace with random value] (ランダムな値で置換) 最大バリエーション(%): 10 21499
マスキングモード: RandomまたはRepeatable
[Generate value between two values] (2つの値の間の値を生成) 最小値: 20000 21876
最大値: 22000
マスキングモード: RandomまたはRepeatable

日付

以下のテーブルには、[Date] (日付)セマンティックタイプのカラムに使用できるマスキングルーチン、および、たとえば値05/04/2018に対するその効果がリスト表示されます。

マスキングルーチン パラメーター 出力
[Replace with random date] (ランダムな日付で置換) 最大バリエーション(日): 365 23/11/2017
マスキングモード: RandomまたはRepeatable
[Keep year and set day and month to 01/01] (年を保持して日と月を01/01にセット)   01/01/2018