複数の確率分布で分析を実行する - Cloud - 8.0

Data privacy

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント

手順

  1. Integration パースペクティブに再び切り替えて、tDuplicateRowの基本設定で[Poisson distribution] (ポアソン分布)を選択し、ジョブを実行します。
  2. Profiling パースペクティブで、[Matching Key] (マッチングキー)テーブルの下にある[Chart] (グラフ)をクリックして、[Poisson distribution] (ポアソン分布)に従って生成された複製を表示します。
  3. [Geometric distribution] (幾何分布)でジョブを実行し、[Profiling] (プロファイリング)[Chart] (グラフ)をクリックして、幾何分布に従って生成された複製を表示します。
    以下のテーブルに、tDuplicateRowコンポーネントで選択した確率分布によって、生成された重複の結果がどのように異なるかを示します。

    確率分布

    複製結果

    説明

    ベルヌーイ分布

    曲線は対称的です。複製のグループは各サイドに均等に分布されており、この例の平均値は4です。この平均値は複製グループの平均的な複製数であり、この値はtDuplicateRowコンポーネントの基本設定の[Average group size] (平均グループサイズ)フィールドで設定した数値です。

    ポアソン分布

    曲線は対称的ではありません。複製のグループは不均等に分布されています。

    幾何分布

    曲線の形は、tDuplicateRowの基本設定で設定した複製レコードの割合によって決まります。割合が高いほど、レコード数が多いグループは少なくなります。

    この例では、複製レコードの割合は80%に設定されています。そのため、2つの複製レコードを持つ多くのグループが生成され(148グループ)、複製レコードの数が141516のグループは1つしかありません。