メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark BatchのtDataEncryptプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataEncryptを設定するために使われます。

標準tDataEncryptコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。

基本設定

Schema (スキーマ)Edit schema (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

Password (パスワード)

この値は二重引用符で囲む必要があります。

既存の暗号化ファイルを使う時は、そのファイルの使用に必要となるパスワードを入力します。

暗号化ファイルを生成する時は、このファイルの暗号化に使うパスワードを入力します。

このパスワードは、tDataDecryptコンポーネントを使ってデータを解読する時に必要です。

[Cryptographic file path] (暗号化ファイルのパス)

既存の暗号化ファイルを使う時は、そのファイルへのパスを入力します。パスは二重引用符で囲む必要があります。

暗号化ファイルを生成する時は、デスティネーションファイルパスを入力します。値のさまざまなタイプを入力できます:
  • コンテキスト: context.mycontext
  • ローカルにファイルを生成するには、パスを二重引用符で囲みます("C:/user/cryptofiles/mycryptofile")
  • クラスター上にファイルを生成するには、HDFSパスを二重引用符で囲みます("hdfs://repository/cryptofiles/mycryptofile")

このファイルはAES-GCMで暗号化されます。

この暗号化ファイルは、tDataDecryptコンポーネントを使ってデータを解読する時に必要です。

暗号化ファイルの詳細は、データ暗号化プロセスをご覧ください。

[Generate cryptographic file] (暗号化ファイルを生成)

このボタンをクリックすると暗号化ファイルが生成されます。

ダイアログボックスで、入力データの暗号化に使われる暗号化方式を選択します。
  • AES: 米国国立標準技術研究所(NIST)によって標準化されている128ビットのブロック暗号です。
  • Blowfish: Bruce Schneier氏によって開発された特許未取得の64ビットのブロック暗号です。

[Encryption] (暗号化)

該当する[Encrypt] (暗号)チェックボックスをオンにして、入力カラムを暗号化します。

Dynamicを除くすべてのカラムデータ型を暗号化できますが、出力された暗号化済みデータはString型となります。

コンポーネントの出力スキーマを設定し、暗号化するカラムのタイプを[String] (文字列)に変更します。

選択されないカラムは暗号化されず、コンポーネントによって現状のまま返されます。

詳細設定

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

使用方法

使用ルール

このコンポーネントは、通常、中間コンポーネントとして使用されます。入力コンポーネントと出力コンポーネントが必要です。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。