Apache Spark StreamingのtDataMaskingプロパティ
これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtDataMaskingを設定するために使われます。
Spark StreamingのtDataMaskingコンポーネントは、データクオリティファミリーに属しています。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
情報メモ要確認: Dynamicデータ型を選択する時は次の点に注意してください:
このコンポーネントの出力スキーマには、読み取り専用カラムが含まれています。
|
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Modifications] (変更) |
テーブルで変更するフィールドと変更方法を定義します: [Input Column] (入力カラム): マスクするデータを含む入力フローからカラムを選択します。 サポートされているデータ型は、Date、Double、Float、Integer、Long、Stringです。 これらの変更は、[Function] (ファンクション)カラムで選択するファンクションに基づいています。 [Category] (カテゴリー): マスキングファンクションのカテゴリーをリストから選択します。
[Function] (ファンクション): 元のデータを非表示にする、または代用のデータで難読化するファンクションを選択します。たとえば、数値や文字を任意の代用データに置換したり、インデックスファイル内のシノニムに置換したり、値をNullにしたりできます。 [Function] (ファンクション)リストから選択できるファンクションは、入力カラムのデータ型によって異なります。 たとえば、カラムタイプがLongの場合は、Numeric varianceファンクションが使えます。カラムタイプがStringの場合、Numeric varianceファンクションは使えません。また、[Date] (日付)カラムの[Function] (ファンクション)リストは日付に固有で、日付値に対して行う変更のタイプを決定できます。 [Method] (方式): [Basic] (基本)方式または1つのFF1アルゴリズム (フォーマット保持暗号化(FPE))を選択し、[FF1 with AES] (FF1およびAES)または[FF1 with SHA-2] (FF1およびSHA-2)を選択します。 [Basic] (基本)方式がデフォルトのアルゴリズムです。 情報メモ注: マスキング方法は強力なので、[Basic] (基本)方式よりもFF1アルゴリズムを使うことをお勧めします。
[FF1 with AES] (FF1およびAES)方式は、CBCモードではAdvanced Encryption 標準をベースとしています。[FF1 with SHA-2] (FF1およびSHA-2)メソッドは、セキュアハッシュファンクションHMAC-256に依存します。 情報メモ注: Java 8u161は、[FF1 with AES] (FF1およびAES)方式を使用するために最低限必要なバージョンです。8u161よりも前のJavaバージョンを使ってこのFPE方式を使えるようにするには、Java Cryptography Extension (JCE)無制限強度管轄ポリシーファイルをOracle Webサイトからダウンロードします。
[FF1 with AES] (FF1およびAES)と[FF1 with SHA-2] (FF1およびSHA-2)のメソッドでは、一意のマスク値を生成するために、[Advanced settings] (詳細設定)の[Password for FF1 methods] (FF1メソッドのパスワード)フィールドにパスワードを設定する必要があります。 [Method] (メソッド)リストは、フォーマット保持暗号化アルゴリズムを使うファンクションでのみ利用できます。 FPEメソッドと共に[Character handling] (文字処理) (たとえば[Replace all] (すべて置換)、[Replace characters between two positions] (2つのポジション間の文字を置換)、[Replace all digits] (すべての桁を置換)など)を使う時は、アルファベットを選択する必要があります。 選択したアルファベットに属する文字は、選択したアルファベット内の同じ文字タイプの文字でマスクされます。 [Best guess] (最も妥当と思われるもの)アルファベットを選択している時は、マスクされた値には入力値に表示されるすべてのアルファベットからの文字が含まれます。[Best guess] (最も妥当と思われるもの)はデフォルトのアルファベットです。 認識されていない文字はそのまま出力にコピーされます。 [Extra Parameter] (追加パラメーター): このフィールドは一部のファンクションで使用されますが、使用されない場合は無効になります。必要に応じて、選択した関数の動作を決定するための数字または文字を入力します。 [Keep format] (保存形式): このファンクションは文字列でのみ使用されます。このチェックボックスを選択すると、[Generate account number and keep original country] (口座番号を生成して元の国を保持)、[Generate credit card number and keep original bank] (クレジットカード番号を生成し、元の銀行を保持)、[Bank Account Masking] (銀行口座のマスキング)、[Credit Card Masking] (クレジットカードのマスキング)、[Phone Masking] (電話のマスキング)、[SSN Masking] (SSNのマスキング)ファンクションまたはカテゴリーによる入力形式が保持されます。つまり、入力にスペース、ドット('.')、ハイフン('-')、スラッシュ('/')のいずれかが含まれる場合、それらの文字は出力でも保持されます。このチェックボックスを選択すると、[Phone Masking] (電話のマスキング)ファンクションを使う時に、入力に含まれている数値以外の文字が出力にそのままコピーされます。 |
詳細設定
[Password for FF1 methods] (FF1メソッドのパスワード) |
[FF1 with AES] (FF1およびAES)と[FF1 with SHA-2] (FF1およびSHA-2)のメソッドで一意のマスク値を生成するために必要なパスワードを設定します。パスワードを設定しないと、ジョブの実行時に毎回ランダムパスワードが作成されます。[FF1 with AES] (FF1およびAES)と[FF1 with SHA-2] (FF1およびSHA-2)のメソッドとパスワードを使っている時、[Seed for random generator] (ランダムジェネレーターをシード)フィールドからのシードは使われません。 |
[Use tweaks with FF1 Encryption] (FF1暗号化で微調整を使用) |
微調整を使用するには、このチェックボックスをオンにします。各レコードに対して一意の調整が生成され、レコードのすべてのデータに適用されます。 全単射マスキングが必要な場合は、この機能を使わないでください。微調整の詳細は、データマスキングファンクションをご覧ください。 |
[Seed for random generator] (ランダムジェネレーターをシード) |
ジョブの実行ごとに同じサンプルの代替データを生成する場合は、乱数を設定します。シードはデフォルトでは設定されません。 このフィールドはLongタイプです。値の範囲は [-263、263-1].シードを設定しないと、コンポーネントが各ジョブの実行に対して新しいランダムシードを作成します。シードを変更して実行を繰り返すと、異なるサンプルが生成されます。 |
[Encoding] (エンコーディング) |
リストからエンコーディングを選択するか、[CUSTOM] (カスタム)を選択して、手動で定義します。[Custom] (カスタム)を選択し、フィールドを空のままにすると、サポートされているエンコーディングは使用しているJVMに依存します。このフィールドはファイルエンコーディングには必須です。 [Function] (ファンクション)を[Generate from file/list] (ファイル/リストから生成)に設定する場合は、[Extra Parameter] (追加パラメーター)でファイルパスを定義します。 |
[Output the original row] (元の行を出力) |
このチェックボックスをオンにすると、代替データに加えて元のデータ行が出力されます。元のデータと代替データの両方を出力すると、デバッグやテストのプロセスで役に立つ場合があります。 |
[Should null input return null] (Nullの入力によりNullを返す) |
このチェックボックスはデフォルトで選択されています。選択すると、入力値がnullの場合、コンポーネントによりnullが出力されます。それ以外の場合は、入力がnullの場合はデフォルト値、文字列値には空の文字列、数値の場合は0、日付値には現在の日付が返されます。 |
[Should empty input return empty] (空の入力により空を返す) |
このチェックボックスをオンにすると、出力データ内で空の値は変わらずそのままになります。それ以外の場合は、選択した関数が入力データに適用されます。 |
[Send invalid data to "Invalid" output flow] (無効なデータを"無効な"出力フローに送信) |
このチェックボックスはデフォルトで選択されています。
|
[tStat Catcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
使用方法
使用ルール |
このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。 このコンポーネントは、中間ステップとして使用されます。 ジョブ全体でのSparkクラスターへの接続を定義するには、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブを使用します。 この接続は、ジョブごとに有効になります。 Talend Spark Streamingジョブの詳細は、Talend Big Data入門ガイドでTalend Spark Streamingジョブを作成、変換、設定する方法のセクションをご覧ください 。 特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |