tReservoirSampling - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Fonction

Le tReservoirSampling permet d'extraire un échantillon de données aléatoires d'un ensemble de Big Data.

Objectif

Le tReservoirSampling extrait un échantillon de l'ensemble de données d'entrée afin que les résultats du profiling de cet échantillon soient uniformes et homogènes par rapport à ceux du profiling de l'intégralité de l'ensemble de données.

Selon la solution Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

Propriétés du tReservoirSampling

Famille du composant

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur le bouton Sync columns afin de récupérer le schéma depuis le composant précédent dans le Job.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Sample Size

Définissez la taille, en nombre de lignes, de l'échantillon à prélever du flux d'entrée.

Advanced settings

Seed for random generator

Saisissez un nombre (graine aléatoire) si vous souhaitez générer exactement les mêmes doublons pour chaque exécution du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Utilisation

Ce composant vous permet de tester des analyses de profiling sur un échantillon de Big Data et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité de l'ensemble de données.

Le tReservoirSampling ne peut être utilisé dans les Jobs Map/Reduce.

Limitation/prérequis

n/a

Scénario : Extraire un échantillon de données d'un ensemble de données d'entrée

Ce scénario décrit un Job simple qui extrait un échantillon de données d'un flux d'entrée.

Le flux d'entrée se présente comme suit :

Configurer le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tReservoirSampling et un tFileOutputDelimited.

  2. Reliez les composants entre eux à l'aide de liens Row > Main.

Configurer les données d'entrée

  1. Double-cliquez sur le tFileInputDelimited afin d'ouvrir sa vue Basic settings et définir ses propriétés.

  2. Dans le champ File name/Stream, parcourez votre système jusqu'au fichier à utiliser en tant que flux d'entrée principal.

    Ce fichier contient des informations sur des clients.

  3. Définissez les séparateurs de lignes (Row Separator) et de champs (Field Separator) ainsi que, si nécessaire, le nombre de lignes d'en-tête (Header) et de pied de page (Footer).

  4. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir une boîte de dialogue et définissez le schéma d'entrée. Dans notre exemple, selon la structure du fichier d'entrée, le schéma comporte dix colonnes.

  5. Cliquez sur le bouton [+] et définissez les colonnes d'entrée dans la boîte de dialogue comme illustré précédemment. Cliquez sur OK afin de fermer la boîte de dialogue.

  6. Si nécessaire, cliquez-droit sur le tFileInputDelimited et sélectionnez Data Viewer afin d'afficher une vue des données d'entrée.

Configurer l'échantillon de données

  1. Double-cliquez sur le tReservoirSampling afin d'ouvrir sa vue Basic settings et définir les propriétés du composant.

  2. Cliquez sur le bouton Edit schema afin d'afficher les colonnes d'entrée et de sortie et, si nécessaire, modifiez le schéma de sortie.

  3. Dans le champ Sample Size, saisissez le nombre de lignes que vous souhaitez extraire du flux d'entrée, 24 dans cet exemple.

  4. Cliquez sur l'onglet Advanced settings et saisissez un nombre (graine aléatoire) dans le champ Seed for random generator .

    En saisissant un nombre dans ce champ, le même échantillon est extrait à chaque exécution du Job. Modifiez la valeur si vous souhaitez extraire un échantillon différent.

Configurer le composant de sortie

  1. Double-cliquez sur le tFileOutputDelimited afin d'ouvrir sa vue Basic settings et définir les propriétés du composant.

  2. Dans le champ File Name, définissez le chemin vers le fichier dans lequel vous souhaitez écrire l'échantillon de données.

  3. Si nécessaire, définissez les séparateurs de lignes et de champs, respectivement dans les champs Row Separator et Field Separator.

Exécuter le Job

  1. Sauvegardez votre Job et appuyez sur F6 afin de l'exécuter.

    L'échantillon de données est extrait et écrit dans le fichier de sortie.

  2. Cliquez-droit sur le composant de sortie et cliquez sur Data Viewer afin d'afficher les données extraites.