Configurer l'échantillon de données - 6.5

Sampling

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tReservoirSampling afin d'ouvrir sa vue Basic settings et définir les propriétés du composant.
  2. Cliquez sur le bouton Edit schema afin d'afficher les colonnes d'entrée et de sortie et, si nécessaire, modifiez le schéma de sortie.
  3. Dans le champ Sample Size, saisissez le nombre de lignes que vous souhaitez extraire du flux d'entrée, 24 dans cet exemple.
  4. Cliquez sur l'onglet Advanced settings et saisissez un nombre (graine aléatoire) dans le champ Seed for random generator .
    En saisissant un nombre dans ce champ, le même échantillon est extrait à chaque exécution du Job. Modifiez la valeur si vous souhaitez extraire un échantillon différent.