複製データの設定 - Cloud - 8.0

Data privacy

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント

手順

  1. tDuplicateRowをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントプロパティを定義します。
  2. [Edit schema] (スキーマを編集)ボタンをクリックして入力および出力カラムを表示し、必要に応じて出力スキーマに変更を施します。
    このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。レコードが元レコードまたは複製レコードである場合、このカラムはtruefalseによって識別されます。元レコードは複製の各グループに1つのみです。
  3. [Percentage of duplicated records] (複製レコードの割合)フィールドに、出力フローに含める複製行の割合を入力します。
  4. [Distribution of duplicates] (複製の分布)エリアで、複製の生成に使用するベルヌーイ分布(確率論)を選択します。各グループに含める複製レコードの平均数を設定します。
  5. [Modifications] (変更)テーブルの下にある[+]ボタンをクリックして、テーブルに4つの行を追加します。
    このテーブルでは、特定のカラムで変更する値、および複製の生成のためにそれらの値を変更する方法を定義できます。
    1. [Input Column] (入力カラム)フィールドで、複製を生成する入力フローのカラムを選択します。この例では、[Name] (名前)[City] (市区町村)[DOB]を選びます。
      カラムを2回テーブルに追加し、別々の関数を選択すると、同じフィールドから異なる値の複製が生成されます。たとえば、このシナリオでは、確率を50%に指定し、Soundex replace関数を使って複製名を変更してから、もう一度確率を50%にし、Exchange characters関数で複製名を変更します。つまり、複製レコードの[Name] (名前)フィールドは、確率が(1-0.5)×(1-0.5) = 0.25である場合、2回目の関数を実行後も変更されない可能性があります。
      すべての複製レコードを確実に変更するには、[Modification Rate] (変更率)1に設定する必要があります。
    2. [Modification Rate] (変更率)カラムに、入力カラムから生成する複製レコードの割合を入力します。
    3. -Function (関数)リストから、複製する値をどのように変更するかを決める関数を選択します。
      この例では、複数の読み方と特性の複製名が存在することになり、異なる読み方の市区町村名が複製されます。生年月日カラムの日付値はここではランダムに変更されます。
    4. Max Modification Count (最大変更数)カラムに、各フィールドで変更する値の最大数を入力します。
  6. [Advanced settings] (詳細設定)タブをクリックし、[Seed for random generator] (ランダムジェネレーターをシード)フィールドにランダムな数値を入力します。
    このフィールドに数値を設定することで、ジョブの各実行で複製データの同じサンプルが生成されます。別のサンプルを生成する場合は値を変更します。