tReservoirSampling
ビッグデータセットからランダムサンプルデータを抽出します。
tReservoirSamplingは、サンプルデータのプロファイリング結果がフルデータセットのプロファイリング結果と同質かつ同種となるように、入力データセットからサンプルデータセットを抽出します。
ローカルモードでは、Apache Spark 2.0、2.3、2.4、3.0がサポートされています。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
-
標準:tReservoirSamplingの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
-
Spark Batch:Apache Spark BatchのtReservoirSamplingプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。