Propriétés du tReservoirSampling Standard - 7.1

Sampling

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tReservoirSampling s'exécutant dans le framework de Jobs Standard.

Le composant tReservoirSampling Standard appartient à la famille Data Quality.

Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement. scénario associé : consultez le Guide utilisateur du Studio Talend .

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Scénario associé : consultez le Guide utilisateur du Studio Talend .

Sample Size

Définissez le nombre de lignes à prélever du flux d'entrée et à utiliser comme échantillon.

Advanced settings

Seed for random generator

Saisissez un nombre aléatoire si vous souhaitez extraire les mêmes échantillons pour différentes exécutions du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

tStat Catcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Règle d'utilisation

Ce composant vous permet de tester des analyses de profiling sur un échantillon données et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité de l'ensemble de données.

Le tReservoirSampling ne peut pas être utilisé dans les Jobs Map/Reduce.