Types de connexions - 6.2

Talend Big Data Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Il y a de nombreux types de connexions qui définissent les données à traiter, la sortie des données, ou bien la séquence logique du Job.

Cliquez-droit sur un composant dans l'espace de modélisation graphique afin d'afficher un menu contextuel listant toutes les connexions disponibles pour le composant sélectionné.

Les sections suivantes décrivent tous les types de connexions disponibles.

Connexion de type Row

La connexion de type Row manipule les données elles-mêmes. Les connexions de type Row sont Main, Lookup, Reject, Output, Uniques/Duplicates ou Combine selon la nature du flux de données traité.

Main

La connexion Row de type Main est la connexion la plus courante. Elle transmet les flux de données d'un composant à l'autre, en faisant un boucle sur chacune des lignes pour lire ou extraire les données selon la définition des propriétés du composant.

Les données transférées à travers les connexions de type Row sont caractérisées par une définition du schéma qui décrit la structure des données dans le fichier d'entrée.

Note

Vous ne pouvez pas connecter deux composants d'entrée à l'aide d'une connexion de type Row > Main. Une seule connexion entrante de type Row est possible par composant. La seconde connexion Row se transforme en connexion Lookup (de référence) automatiquement.

Cliquez-droit sur le composant d'entrée et sélectionnez Row > Main dans la liste des connexions.

Sinon, cliquez sur le composant pour le sélectionner, cliquez-droit dessus, ou cliquez sur l'icône O s'affichant sur le côté du composant et déplacez votre curseur vers le composant de destination. Une connexion de type Row > Main sera automatiquement créée.

Pour en savoir plus sur les cas spécifiques de connexions Row multiples, consultez Job à entrées/sorties multiples.

Lookup

La connexion de type Lookup est une connexion Row reliant un composant d'un flux secondaire à un composant d'un flux principal (ce composant doit être capable de recevoir plus d'un flux d'entrée). Cette connexion est uniquement disponible dans le cas d'utilisation de flux multiples.

Vous pouvez transformer une connexion de type Lookup en connexion de type Main row, et inversement vous pouvez changer une connexion Lookup en Main row. Pour ce faire, cliquez-droit et sélectionnez Set this connection as Main.

Consultez également : Job à entrées/sorties multiples.

Filter

La connexion de type Filter relie le composant spécifique tFilterRow à un composant de sortie. Cette connexion Row regroupe les données répondant aux critères du filtre. Ce composant particulier permet aussi une connexion de Rejet pour traiter le flux de données ne répondant pas aux critères.

Rejects

La connexion de type Rejects est une connexion reliant un composant de traitement à un composant de sortie. Cette connexion Row regroupe les données NE répondant PAS aux critères du filtre ou qui ne sont pas compatibles avec la sortie attendue. Cette connexion vous permet d'isoler les données ne pouvant pas être traitées pour différentes raisons (type de données inapproprié, valeur Null non définie, etc.). Pour certains composants, cette connexion est activée lorsque l'option Die on error est désactivée. Pour plus d'informations, référez-vous aux propriétés du composant correspondant, disponibles dans le Guide de référence des Composants Talend.

ErrorReject

ErrorReject : La connexion ErrorReject est une connexion Row reliant un composant tMap à un composant de sortie. Cette connexion est activée lorsque vous décochez la case Die on error dans l'éditeur du tMap, et elle rassemble les données impossibles à traiter (type de données inapproprié, valeur Null non définie, format de date erroné, etc.).

Consultez également : Gestion des erreurs.

Output

La connexion de type Output est une connexion Row, traitant de la donnée, et qui relie un composant tMap à un ou plusieurs composants de sortie. Les sorties d'un Job pouvant être multiples, une boîte de dialogue s'affiche pour vous demander de nommer chacune des connexions.

Note

Le système se souvient également des noms des connexions de sortie supprimées (ainsi que les propriétés définies). Dans la liste des connexions output suggérées, vous retrouvez ainsi les connexions supprimées. Cette fonctionnalité vous permet de ne pas avoir à ressaisir toutes les informations de propriétés.

Consultez également : Job à entrées/sorties multiples.

Uniques/Duplicates

Les connexions de type Uniques et Duplicates relient un composant tUniqRow à des composants de sortie.

La connexion de type Uniques regroupe les premières lignes rencontrées dans un flux d'entrée. Ce flux de données uniques est ensuite dirigé vers le composant de sortie approprié ou vers un autre sous-job de traitement.

La connexion de type Duplicates regroupe les doublons possibles des premières lignes rencontrées. Ce flux de rejet est dirigé vers le composant adéquat, pour être analysé par exemple.

Job à entrées/sorties multiples

Certains composants permettent de manipuler des données de sources multiples et/ou vers des sorties multiples. Le plus souvent se sont des composants de traitement de données, notamment le tMap.

Si vous avez besoin d'effectuer une jointure ou des transformations sur un flux, il est préférable d'utiliser le composant tMap, qui est conçu pour ce type de besoin.

Pour plus d'informations concernant le mapping et la transformation de données, consultez Mapping de flux de données.

Pour plus d'informations concernant le composant tMap et son utilisation, consultez le Guide de référence des Composants Talend.

Combine

La connexion de type Combine relie un composant CombinedSQL à un autre.

Lorsque vous cliquez-droit sur le composant CombinedSQL pour le relier à un autre, sélectionnez Row > Combine.

Consultez également le composant CombinedSQL dans le chapitre Composants ELT du Guide de référence des Composants Talend.

Connexion de type Iterate

La connexion de type Iterate sert à faire une boucle sur plusieurs fichiers d'un répertoire donné, sur les lignes d'un fichier ou sur les entrées d'une base de données.

Un composant ne peut être la cible que d'une seule connexion d'itération, Iterate. La connexion Iterate est généralement utilisé sur le composant de début (Start) d'un flux d'un Job ou d'un sous-job.

Certains composants ne peuvent fonctionner avec d'autres composants qu'à l'aide d'une connexion d'itération, c'est le cas du composant tFilelist. Pour plus d'informations concernant la configuration d'une connexion Iterate, consultez Paramètres d'une connexion Iterate.

Note

A la différence des autres types de connexions, le nom de la connexion Iterate est en lecture seule.

Connexion de type Trigger

Les connexions de déclenchement, Trigger, aident à définir le processus de traitement. Les connexions de type Trigger ne servent pas au transfert de données.

La connexion utilisée met en place une relation de dépendance entre un Job principal et ses sous-jobs. De cette manière, l'un ou l'autre des Jobs est déclenché en fonction de la nature de cette connexion de déclenchement.

Les connexions de déclenchement (Trigger) sont réparties en deux catégories :

  • déclenchements de sous-job : On Subjob Ok, On Subjob Error et Run if,

  • déclenchements de composant : On Component Ok, On Component Error et Run if.

OnSubjobOK (précédemment Then Run) : Cette connexion est utilisée pour déclencher le sous-job qui suit à condition que le sous-job principal se soit exécuté sans erreur. Cette connexion s'utilise uniquement avec le composant de début (Start) de votre Job.

Ces connexions sont utilisées pour orchestrer et vérifier plus facilement les sous-jobs composant le Job ou traiter les erreurs qui n'étaient pas prévues.

OnSubjobError : Cette connexion est utilisé pour déclencher le sous-job qui suit lorsque le premier sous-job (principal) ne s'est pas déroulé correctement. Ce sous-job "on error" vous permet d'identifier les éventuels goulots d'étranglement ou de corriger l'erreur si cela est possible.

Consultez également : Configurer un composant de début.

OnComponentOK et OnComponentError sont des déclencheurs de composants. Ils peuvent déclencher n'importe quel composant source dans un sous-job.

OnComponentOK ne déclenche l'exécution du composant cible qu'une fois l'exécution du composant source terminée correctement. Il peut servir à déclencher un sous-job de notification par exemple.

OnComponentError déclenche le sous-job ou composant cible lorsqu'une erreur a été rencontrée dans le processus initial.

Run if déclenche un sous-job ou un composant si les conditions définies sont réunies. Pour plus d'information concernant la configuratoin d'une connexion Run if, consultez Paramètres d'une connexion Run if.

Pour plus d'informations concernant la configuration d'une connexion Trigger, consultez Paramètres d'une connexion Trigger.

Note

Il est possible d'ajouter des points de validation à certaines connexions de type Trigger afin de pouvoir reprendre l'exécution du Job à partir du point de validation précédent l'erreur. Pour plus d'informations, consultez Mettre en place de points de validation (checkpoints) sur les connexions de type Trigger

Connexion de type Link

La connexion Link n'est utilisée qu'avec les composants ELT. Ces connexions transmettent les informations de schémas au composant de mapping ELT afin d'utiliser ces informations dans la construction des requêtes de base de données spécifiques.

Consultez également le Guide de référence des Composants Talend.

La connexion Link ne transmet donc pas de données en tant que telles, mais simplement les métadonnées des tables faisant l'objet de la requête.

Pour sélectionner une connexion Link, cliquez-droit sur un composant ELT, puis cliquez sur Link > New Output.

Avertissement

Le nom que vous affectez à la connexion Link doit impérativement reprendre le nom de la table à requêter.

En effet, le nom de la connexion étant utilisé dans la formulation de la requête SQL généré par le composant ELT tMap, un même nom ne devrait jamais être utilisé deux fois.