Scénario : Extraire un échantillon de données d'un ensemble de données d'entrée - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job simple qui extrait un échantillon de données d'un flux d'entrée.

Le flux d'entrée se présente comme suit :

Configurer le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tReservoirSampling et un tFileOutputDelimited.

  2. Reliez les composants entre eux à l'aide de liens Row > Main.

Configurer les données d'entrée

  1. Double-cliquez sur le tFileInputDelimited afin d'ouvrir sa vue Basic settings et définir ses propriétés.

  2. Dans le champ File name/Stream, parcourez votre système jusqu'au fichier à utiliser en tant que flux d'entrée principal.

    Ce fichier contient des informations sur des clients.

  3. Définissez les séparateurs de lignes (Row Separator) et de champs (Field Separator) ainsi que, si nécessaire, le nombre de lignes d'en-tête (Header) et de pied de page (Footer).

  4. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir une boîte de dialogue et définissez le schéma d'entrée. Dans notre exemple, selon la structure du fichier d'entrée, le schéma comporte dix colonnes.

  5. Cliquez sur le bouton [+] et définissez les colonnes d'entrée dans la boîte de dialogue comme illustré précédemment. Cliquez sur OK afin de fermer la boîte de dialogue.

  6. Si nécessaire, cliquez-droit sur le tFileInputDelimited et sélectionnez Data Viewer afin d'afficher une vue des données d'entrée.

Configurer l'échantillon de données

  1. Double-cliquez sur le tReservoirSampling afin d'ouvrir sa vue Basic settings et définir les propriétés du composant.

  2. Cliquez sur le bouton Edit schema afin d'afficher les colonnes d'entrée et de sortie et, si nécessaire, modifiez le schéma de sortie.

  3. Dans le champ Sample Size, saisissez le nombre de lignes que vous souhaitez extraire du flux d'entrée, 24 dans cet exemple.

  4. Cliquez sur l'onglet Advanced settings et saisissez un nombre (graine aléatoire) dans le champ Seed for random generator .

    En saisissant un nombre dans ce champ, le même échantillon est extrait à chaque exécution du Job. Modifiez la valeur si vous souhaitez extraire un échantillon différent.

Configurer le composant de sortie

  1. Double-cliquez sur le tFileOutputDelimited afin d'ouvrir sa vue Basic settings et définir les propriétés du composant.

  2. Dans le champ File Name, définissez le chemin vers le fichier dans lequel vous souhaitez écrire l'échantillon de données.

  3. Si nécessaire, définissez les séparateurs de lignes et de champs, respectivement dans les champs Row Separator et Field Separator.

Exécuter le Job

  1. Sauvegardez votre Job et appuyez sur F6 afin de l'exécuter.

    L'échantillon de données est extrait et écrit dans le fichier de sortie.

  2. Cliquez-droit sur le composant de sortie et cliquez sur Data Viewer afin d'afficher les données extraites.

    Comme défini dans les paramètres du composant tReservoirSampling, 24 enregistrements ont été extraits du fichier d'entrée. La colonne Code indique que les données n'ont pas été extraites du fichier d'entrée dans l'ordre. Les données ont été extraites afin que n'importe quel résultat du profiling de l'échantillon soit proche des résultats de profiling de l'intégralité de l'ensemble de données.