Propriétés du tReservoirSampling - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Data Quality

 

Fonction

Le tReservoirSampling permet d'extraire un échantillon de données aléatoires d'un ensemble de Big Data.

Objectif

Le tReservoirSampling extrait un échantillon de l'ensemble de données d'entrée afin que les résultats du profiling de cet échantillon soient uniformes et homogènes par rapport à ceux du profiling de l'intégralité de l'ensemble de données.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur le bouton Sync columns afin de récupérer le schéma depuis le composant précédent dans le Job.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Sample Size

Définissez la taille, en nombre de lignes, de l'échantillon à prélever du flux d'entrée.

Advanced settings

Seed for random generator

Saisissez un nombre (graine aléatoire) si vous souhaitez générer exactement les mêmes doublons pour chaque exécution du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Utilisation

Ce composant vous permet de tester des analyses de profiling sur un échantillon de Big Data et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité de l'ensemble de données.

Le tReservoirSampling ne peut être utilisé dans les Jobs Map/Reduce.

Limitation/prérequis

n/a