Propriétés du tReservoirSampling Standard - 7.3

Échantillonnage (Sampling)

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'échantillonnage
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tReservoirSampling s'exécutant dans le framework de Jobs Standard.

Le composant tReservoirSampling Standard appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Sample Size

Définissez le nombre de lignes à prélever du flux d'entrée et à utiliser comme échantillon.

Advanced settings

Seed for random generator

Saisissez un nombre aléatoire si vous souhaitez extraire les mêmes échantillons pour différentes exécutions du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

tStat Catcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Règle d'utilisation

Ce composant vous permet de tester des analyses de profiling sur un échantillon données et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité du jeu de données.

Le tReservoirSampling ne peut pas être utilisé dans les Jobs Map/Reduce.