tReservoirSampling
ビッグデータセットからランダムサンプルデータを抽出します。
tReservoirSamplingは、サンプルデータのプロファイリング結果がフルデータセットのプロファイリング結果と同質かつ同種となるように、入力データセットからサンプルデータセットを抽出します。
ローカルモードでは、Apache Spark 2.0、2.3、2.4、3.0がサポートされています。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
-
標準:tReservoirSamplingの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
-
Spark Batch:Apache Spark BatchのtReservoirSampling プロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。