tHashInput - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Propriétés du tHashInput

Les composants de la famille Technical sont normalement masqués par défaut, dans la Palette. Pour savoir comment les afficher dans la Palette, consultez le Guide utilisateur du Studio Talend.

Famille du composant

Technical

 

Fonction

Le composant tHashInput lit des données dans la mémoire cache, écrites par le tHashOutput afin de donner une grande vitesse aux flux de données.

Objectif

Ce composant lit des données dans la mémoire cache, écrites par le composant tHashOutput afin de peupler rapidement de données et de faciliter les transactions comprenant un large volume de données.

Basic settings

Schema et Edit schema

Un schéma est une description de ligne, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant (Repository).

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Link with a tHashOutput

Cochez cette case pour connecter votre composant à un tHashOutput. Cette case est cochée par défaut.

 

Component list

Liste déroulante comprenant les composants tHashOutput disponibles.

 

Clear cache after reading

Cochez cette case pour vider le cache après lecture des données chargées par un composant tHashOutput. Ainsi, les composants tHashInput suivants, s'il y en a, ne pourront lire les données du cache chargées par le tHashOutput.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est utilisé avec le tHashOutput. Il lit des données depuis la mémoire cache, écrites par le tHashOutput. Ensemble, ces deux composants permettent un accès très rapide aux données afin de faciliter les transactions comprenant un grand nombre de données.

Scénario 1 : Lire des données directement dans la mémoire cache afin d'y accéder rapidement

Le Job suivant lit dans la mémoire cache un large volume de données écrites par deux composants tHashOutput et envoie le contenu dans un tFileOutputDelimited. L'objectif de ce Job est de montrer la vitesse de lecture et d'écriture des données. En pratique, les données ainsi générées peuvent être utilisées comme table de référence dans certains cas où un grand volume de données doit être référencé.

Déposer et relier les composants

  1. Glissez-déposez les composants suivants de la Palette dans l'espace de modélisation graphique : deux tFixedFlowInput, deux tHashOutput, un tHashInput et un tFileOutputDelimited.

  2. Reliez le premier tFixedFlowInput au premier tHashOutput à l'aide d'un lien Row > Main.

  3. Reliez le second tFixedFlowInput au second tHashOutput à l'aide d'un lien Row > Main.

  4. Connectez le premier sous-job (composant tFixedFlowInput_1) au deuxième sous-job (composant tFixedFlowInput_2) à l'aide d'un lien OnSubjobOk.

  5. Reliez le tHashInput au tFileOutputDelimited à l'aide d'un lien Row > Main.

  6. Connectez le deuxième sous-job au dernier sous-job à l'aide d'un lien OnSubjobOk.

Configurer les composants

Configurer les entrées de données et le cache
  1. Double-cliquez sur le premier tFixedFlowInput pour afficher sa vue Basic settings et configurer ses propriétés de base.

  2. Dans la liste Schema, sélectionnez Built-In.

    Note

    Vous pouvez sélectionner Repository dans la liste Schema afin de renseigner automatiquement les champs, si la métadonnée correspondante est stockée dans le Repository. Pour plus d'informations concernant la centralisation des métadonnées, consultez le chapitre relatif aux métadonnées dans le Guide utilisateur du Studio Talend.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema afin de définir la structure des données du flux d'entrée. Dans ce cas, le schéma contient deux colonnes : ID et ID_Insurance. Cliquez sur OK pour fermer la boîte de dialogue.

  4. Dans le champ Number of rows, saisissez le nombre d'entrées à écrire, ici 50000.

  5. Sélectionnez l'option Use Single Table. Dans la table Values, saisissez, dans la colonne Value, une valeur pour chaque colonne, ici 1 pour ID et 3 pour ID_Insurance.

  6. Effectuez la même opération pour le second tFixedFlowInput et saisissez 2 pour ID et 4 pour ID_Insurance.

  7. Double-cliquez sur le premier tHashOutput afin d'afficher sa vue Basic settings et définir ses propriétés.

  8. Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent. Sélectionnez Keep all dans la liste Keys management et laissez la case Append cochée.

  9. Effectuez la même opération pour le second tHashOutput. Cochez sa case Link with a tHashOutput

Configurer la récupération des données du cache et la sortie des données.
  1. Double-cliquez sur le composant tHashInput pour afficher sa vue Basic settings et définir ses propriétés.

  2. Dans la liste Schema, sélectionnez Built-In. Cliquez sur le bouton [...] à côté du champ Edit schema pour définir la structure des données, la même que dans le tHashOutput.

  3. Sélectionnez tHashOutput_1 dans la liste Component list.

  4. Double-cliquez sur le composant tFileOutputDelimited pour afficher sa vue Basic settings et configurer ses propriétés.

  5. Dans la liste Property Type, sélectionnez Built-In. Dans le champ File Name, saisissez le chemin d'accès à votre fichier ou cliquez sur le bouton [...] afin de parcourir votre système jusqu'à votre fichier. Ici, le chemin d'accès est le suivant : "E:/Allr70207V5.0/Talend-All-r70207-V5.0.0NB/workspace/out.csv"

  6. Cochez la case Include Header puis cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent.

Exécuter le Job

Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Vous pouvez voir que les nombreuses entrées ont été écrites et lues de manière très rapide.

Scénario 2 : Vider la mémoire avant d'y charger les données si une boucle existe dans le même sous-job

Ce scénario montre l'utilisation de l'option Append du composant tHashOutput, qui permet de supprimer des données répétitives ou indésirables s'il y a une boucle dans le sous-job du tHashOutput.

Pour construire le Job, procédez comme suit :

Déposer et relier les composants

  1. Glissez-déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tLoop, tFixedFlowInput, tHashOutput, tHashInput et tLogRow.

  2. Reliez le tLoop autFixedFlowInput à l'aide d'un lien Row > Iterate.

  3. Connectez le composant tFixedFlowInput au tHashOutput à l'aide d'un lien Row > Main.

  4. Reliez le tHashInput au tLogRow à l'aide d'un lien Row > Main.

  5. Connectez le tLoop au tHashInput à l'aide d'un lien OnSubjobOk.

Configurer les composants

Configurer les données d'entrée et le cache
  1. Double-cliquez sur le tLoop pour afficher sa vue Basic settings.

  2. Dans la zone Loop Type, sélectionnez For comme type de boucle. Saisissez respectivement 1, 2 et 1 dans les champs From, To et Step. Laissez cochée la case Values are increasing.

  3. Double-cliquez sur le composant tFixedFlowInput pour afficher sa vue Basic settings.

  4. Dans la liste Schema, sélectionnez Built-In.

    Note

    Vous pouvez sélectionner Repository dans la liste Schema afin de renseigner automatiquement tous les champs si la métadonnée correspondante est stockée dans le Repository. Pour plus d'informations concernant la centralisation des métadonnées sous le nœud Metadata, consultez le Guide utilisateur du Studio Talend.

  5. Cliquez sur Edit schema pour définir la structure des données du flux d'entrée. Dans ce scénario, le schéma contient une colonne Name.

  6. Cliquez sur OK pour fermer la boîte de dialogue.

  7. Renseignez le champ Number of rows afin de spécifier les entrées à écrire, par exemple 1.

  8. Cochez la case Use Single Table. Dans la table Values, assignez une valeur au champ Name, par exemple Marx.

  9. Double-cliquez sur le tHashOutput pour affiche sa vue Basic settings.

  10. Dans la liste Schema, sélectionnez Built-In et cliquez sur Sync columns pour récupérer le schéma du composant précédent. Sélectionnez Keep all dans la liste Keys management et décochez la case Append.

Configurer la récupération des données du cache et la sortie des données
  1. Double-cliquez sur le tHashInput pour afficher sa vue Basic settings.

  2. Sélectionnez Built-In dans la liste Schema. Cliquez sur Edit schema afin de définir la même structure des données que dans le schéma du tHashOutput.

  3. Sélectionnez tHashOutput_2 dans la liste Component list.

  4. Double-cliquez sur le tLogRow pour afficher sa vue Basic settings.

  5. Sélectionnez Built-In dans la liste Schema et cliquez sur Sync columns pour récupérer le schéma du composant précédent. Dans la zone Mode, sélectionnez Table (print values in cells of a table).

Sauvegarder et exécuter le Job

  1. Appuyez sur les touches Ctrl+S afin de sauvegarder votre Job.

  2. Appuyez sur F6 pour exécuter le Job, ou cliquez sur le bouton Run, dans l'onglet Run.

    Vous pouvez constater qu'une seule ligne a été écrite alors que deux ont été générées par le tFixedFlowInput.