tDataShuffling - Cloud - 8.0

Data privacy

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データプライバシーコンポーネント

シャッフルでは、入力テーブルのデータについて、データセットのファンクションを保ったまま実際のデータを保護します。これはテストやトレーニングなどの目的で使用できます。

tDataShufflingは、元の値を同じカラムの別の行の他の値に置き換えます。

1つまたは複数のカラムをパーティショングループとして定義すると、テーブル全体が特定の数のパーティションに分割されます。これらのパーティションは、パーティション分割されたカラムの同じ値を共有します。次に、シャッフルプロセスが各パーティションに個別に適用されます。すべてのパーティションが1つの出力テーブルにマージされます。

カラムをパーティショングループとして設定しない場合、シャッフルプロセスは入力テーブル全体に適用されます。

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

使用しているTalend製品に応じて、このコンポーネントは次のジョブフレームワークの1つ、一部、またはすべてで使用できます。

  • 標準:tDataShufflingの標準プロパティをご覧ください。

    このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。

  • Spark Batch:Apache Spark Ba​​tchのtDataShufflingプロパティをご覧ください。

    このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。