tReservoirSampling - 7.2

サンプリング

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > サンプリングコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > サンプリングコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > サンプリングコンポーネント

ビッグデータセットからランダムサンプルデータを抽出します。

tReservoirSamplingは、サンプルデータのプロファイリング結果がフルデータセットのプロファイリング結果と同質かつ同種となるように、入力データセットからサンプルデータセットを抽出します。

ローカルモードでは、Apache Spark 2.0.0、2.3.0、2.4.0がサポートされています。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

使用しているTalend製品に応じて、このコンポーネントは次のジョブフレームワークの1つ、一部、またはすべてで使用できます。

  • 標準:tReservoirSamplingの標準プロパティをご覧ください。

    このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。

  • Spark Batch:Apache Spark BatchのtReservoirSampling プロパティをご覧ください。

    このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。