tDuplicateRowの標準プロパティ - Cloud - 8.0

Data privacy

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント

これらのプロパティは、標準のジョブフレームワークで実行されているtDuplicateRowを設定するために使われます。

標準tDuplicateRowコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムを同期)をクリックします。

このコンポーネントの出力スキーマには、読み取り専用カラムORIGINAL_MARKが1つ含まれています。このカラムは、trueまたはfalseにより、レコードがそれぞれ元のレコードか重複レコードかが識別されます。元レコードは各グループに1つのみです。

 

[Built-in] (組み込み): このコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

Percentage of duplicated records (複製レコードの割合)

出力フローに含める複製行の割合を入力します。

Distribution of duplicates (複製の分布)

[Name:] (名前:)複製の生成に使用する確率分布を選択します: ベルヌーイ分布、ポアソン分布、幾何分布のいずれか。

Average group size (平均グループサイズ): 複製グループで生成する複製レコードの平均数を設定します。

[Modifications] (変更)

行内で変更するフィールドとその方法をテーブル内で定義します。

Input Column (入力カラム): 値を変更して複製を生成する入力フローからカラムを選択します。

-Modification Rate (変更率): 入力カラムから生成した複製レコードに適用する変更率を入力します。変更率の値は01です。変更率を0に設定すると、変更は行われません。変更率を0.5に設定すると、変更は平均して2行ごとに行われます。しかし変更率を1に設定した場合、変更は各行で行われます。

値の変更は、[Function] (関数)カラムで選択した関数および[Max Modification Count] (最大変更回数)カラムで設定した変更の回数に基づいて行われます。

-Function (関数): 複製する値をどのように変更するかを決める関数を選択します。たとえば、文字や数字を置換または追加したり、インデックスファイルからのシノニムに値を置換したり、関数をNullに設定して値を削除することで、正確な複製値または類似する複製値にできます。

[Function] (関数)リストは、カラムタイプによって異なります。たとえば、文字列型のカラムの場合、リストには[Add letters] (文字の追加)オプションがあり、整数値型カラムでは、リストに[Add digits] (桁数の追加)オプションがあります。また、[Date] (日付)カラムの[Function] (関数)リストは日付固有のものになります。[Date] (日付)カラムで使用される関数の詳細は、tDuplicateRowの日付関数をご覧ください。

-Max Modification Count (最大変更数): 変更する値の最大数を入力します。

-Synonym Index Path (シノニムインデックスのパス):シノニムを使用するインデックスファイルへのパスを設定します。

Synonym replace関数を選択するとこのフィールドを使用できます。その場合、複製レコードの値は、特定の率に応じてシノニムの1つに置き換わります。

Luceneインデックスを作成し、シノニムをそのインデックスにフィードするには、tSynonymOutputコンポーネントを使用する必要があります。シノニムインデックスを作成し、参照エントリーを定義する方法については、tSynonymOutputをご覧ください。

詳細設定

[Seed for random generator] (ランダムジェネレーターをシード)

ジョブの各実行で複製の同じサンプルを生成する場合は、ランダムな数値を設定します。

シードの値を変更して実行を繰り返すと、異なる複製サンプルが生成されます。

ジョブを実行するたびに異なる複製サンプルを生成する場合は、このフィールドを空のままにしておきます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

使用方法

[Usage rule] (使用ルール)

このコンポーネントを使用すると、特定の基準に従って入力フローの複製データを生成し、テスト目的に使用できます。