tGreenplumGPLoad - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce composant invoque l'utilitaire gpload de Greenplum afin d'insérer des enregistrements dans une base de données Greenplum. Ce composant peut être utilisé soit en mode standalone, il chargera alors les données à partir d'un fichier de données existant, soit connecté à un flux d'entrée, afin de charger des données à partir du composant connecté.

Propriétés du tGreenplumGPLoad

Famille du composant

Databases/Greenplum

 

Fonction

Le composant tGreenplumGPLoad insère des données dans la table d'une base de données Greenplum via l'utilitaire gpload de Greenplum.

Objectif

Ce composant permet de charger en masse des données dans une table Greenplum soit à partir d'un fichier, soit à partir d'un flux d'entrée, soit à partir d'un tube nommé.

Basic settings

Property type

Peut être Built-in ou Repository

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Propriétés utilisées ponctuellement.

 

 

Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées.

 

Host

Adresse IP du serveur de base de données.

 

Port

Numéro du port d'écoute du serveur de base de données.

 

Database

Nom de la base de données.

 

Schema

Nom exact du schéma.

 

Username et Password

Informations d'authentification de l'utilisateur de base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles, puis cliquez sur OK afin de sauvegarder les paramètres.

 

Table

Nom de la table dans laquelle les données doivent être insérées.

 

Action on table

Vous pouvez effectuer l'une des opérations suivantes sur les données de la table sélectionnée, avant de charger les données :

None : n'effectuer aucune opération de table.

Clear table : supprimer le contenu de la table.

Create table : créer une table qui n'existe pas encore.

Create table if not exists : créer la table si nécessaire.

Drop and create the table : supprimer la table puis en créer une nouvelle.

Drop table if exists and create : supprimer la table si elle existe déjà et la (re)crée.

Truncate table : supprimer rapidement le contenu de la table, mais sans possibilité de Rollback.

 

Action on data

Vous pouvez effectuer différentes actions sur les données de la table définie :

Insert : Ajouter de nouvelles entrées à la table. Si des doublons sont trouvés, le Job s'arrête.

Update : Apporter des modifications aux entrées existantes.

Merge : Mettre à jour ou ajouter des données dans la table.

Avertissement

Il est nécessaire de spécifier au moins une colonne comme étant une clé primaire sur laquelle baser les opérations Update et Merge. Vous pouvez le faire en cliquant sur Edit Schema et en cochant la (les) case(s) à côté de la (des) colonne(s) que vous souhaitez définir comme clé(s) primaire(s). Pour configurer les options des opérations Update et Merge, cochez les cases de la colonne Match Column correspondant aux noms des colonnes que vous souhaitez utiliser comme base pour les opérations Update et Merge. Ensuite, cochez les cases de la colonne Update Column correspondant aux noms des colonnes que vous souhaitez mettre à jour. Pour configurer le champ Update condition, saisissez la condition qui sera utilisée pour mettre à jour les données.

 

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

  

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Data file

Chemin d'accès complet au fichier de données à utiliser. Si ce composant est utilisé seul (non connecté à un autre composant par un flux d'entrée), alors saisissez le nom d'un fichier existant à charger dans la base de données. S'il est connecté à un autre composant par un flux d'entrée, saisissez le nom du fichier à générer et à écrire avec les données d'entrée, afin de l'utiliser plus tard avec gpload pour charger dans la base de données. Ce champ est masqué lorsque la case Use named-pipe est cochée.

 

Use named-pipe

Cochez cette case afin d'utiliser un tube nommé à la place d'un fichier de données. Cette option ne peut être utilisée que lorsque le composant est connecté à un autre composant par un flux d'entrée. Quand la case est cochée, aucun fichier de données n'est généré, et les données sont transférées à l'utilitaire gpload via un tube nommé. Cette option améliore grandement les performances sous Linux et Windows.

Note

Ce composant, en mode tube nommé, utilise une interface JNI pour créer un tube nommé et écrire dedans, dans toute plateforme Windows. Le chemin d'accès associé au fichier DLL JNI doit être configuré dans le chemin d'accès à la bibliothèque Java. Le composant est automatiquement fourni dans le Studio Talend avec deux DLL pour les systèmes d'exploitation de 32 et 64 bits.

 

Named-pipe name

Spécifiez un nom pour le tube nommé à utiliser. Vérifiez que le nom saisi est valide.

 

Die on error

Cette case est cochée par défaut et stoppe le Job en cas d'erreur. Décochez cette case pour terminer le traitement avec les lignes sans erreur, et ignorer les lignes en erreur. Vous pouvez récupérer les lignes en erreur, si vous le souhaitez. Pour cela, utilisez un lien Row > Rejects.

Advanced settings

Use existing control file (YAML formatted)

Cochez cette case pour fournir un fichier de contrôle à utiliser avec l'utilitaire gpload au lieu de spécifier explicitement toutes les options dans le composant. Lorsque cette case est cochée, l'option Data file ainsi que les autres options liées à l'utilitaire gpload ne s'appliquent plus. Veuillez vous référer au manuel du gpload de Greenplum pour plus d'informations concernant la création d'un fichier de contrôle.

 

Control file

Saisissez le chemin d'accès au fichier de contrôle à utiliser, entre guillemets doubles, ou cliquez sur le bouton [...] afin de parcourir votre répertoire jusqu'au fichier de contrôle. Cette option est passée à l'utilitaire gpload via l'argument -f.

 

CSV mode

Cochez cette case pour inclure des paramètres spécifiques au format CSV, tels que Escape char et Text enclosure.

 

Field separator

Caractère, chaîne de caractères ou expression régulière utilisé pour séparer les champs.

Avertissement

Argument delim de l'utilitaire gpload. La valeur par défaut est |. Pour améliorer les performances, utilisez la valeur par défaut.

 

Escaped char

Caractère d'échappement de la ligne.

 

Text enclosure

Caractères utilisés pour entourer le texte.

 

Header (skips the first row of data file)

Cochez cette case pour ignorer la première ligne du fichier de données.

 

Additional options

Définissez les arguments gpload dans le tableau correspondant. Cliquez sur le bouton [+] autant de fois que nécessaire afin d'ajouter les arguments au tableau.

Cliquez sur le champ Parameter et choisissez l'argument souhaité dans la liste, puis cliquez sur le champ Value correspondant et saisissez une valeur entre guillemets.

 

 

LOCAL_HOSTNAME : Nom de l'hôte ou adresse IP de la machine sur laquelle gpload fonctionne. Si cette machine est configurée avec plusieurs cartes réseau, vous pouvez spécifier le nom de l'hôte ou l'adresse IP de chaque carte réseau, afin de permettre au trafic d'utiliser simultanément toutes les cartes réseau. Par défaut, l'hôte local ou adresse IP principal(e) est utilisé(e).

 

 

PORT (gpfdist port) : Numéro du port spécifique devant être utilisé par le programme de distribution du fichier gpfdist. Vous pouvez également renseigner PORT_RANGE afin de sélectionner un port disponible dans l'écart spécifié. Si PORT et PORT_RANGE sont spécifiés, PORT prévaut. Si aucun des deux n'est défini, un port disponible entre 8000 et 9000 est sélectionné par défaut. Si plusieurs noms d'hôtes sont déclarés dans LOCAL_HOSTNAME, le numéro du port est utilisé pour tous les hôtes. Cette configuration est souhaitée si vous voulez utiliser toutes les cartes réseau pour charger le même fichier ou le même ensemble de fichiers dans un répertoire donné.

 

 

PORT_RANGE : Peut être utilisé à la place de PORT (gpfdist port) afin de spécifier une plage de numéros de ports parmi lesquels gpload peut choisir un port disponible pour cette instance du programme de distribution du fichier gpfdist.

 

 

NULL_AS : Chaîne de caractères représentant une valeur null. La valeur par défaut est \N en mode TEXT et une valeur vide sans guillemet en mode CSV. Tout élément de données source correspondant à cette chaîne de caractères sera considéré comme valeur null.

 

 

FORCE_NOT_NULL : En mode CSV, traite chaque colonne spécifiée comme si elle était entourée de guillemets et n'était donc pas une valeur NULL. Pour la chaîne de caractères null par défaut en mode CSV (aucun caractère entre deux délimiteurs), cela crée des valeurs manquantes à évaluer comme des chaînes de caractères de longueur zéro.

 

 

ERROR_LIMIT (2 or higher) : Active le mode d'isolation d'une ligne pour cette opération de chargement. Lorsqu'il est activé et que le nombre maximal d'erreurs n'est pas atteint pour les instances de segments Greenplum durant le traitement de l'entrée, toutes les lignes correctes sont chargées et les lignes ayant des erreurs de format sont rejetées ou enregistrées dans la table ERROR_TABLE, si elle est disponible.

Si le nombre limite d'erreurs est atteint, les lignes d'entrée ayant des erreurs de format arrêtent l'opération de chargement.

Notez que l'isolation d'une ligne en erreur s'applique uniquement aux lignes de données ayant des erreurs de format, par exemple, des attributs manquants ou supplémentaires, des attributs d'un mauvais type de données ou des séquences d'encodage client invalides. Des erreurs de contraintes, telles que les violations de clé primaire, provoquent toujours l'arrêt du chargement.

Lorsque cette option n'est pas activée, l'opération de chargement s'arrête à la première erreur rencontrée.

 

 

ERROR_TABLE : Lorsque la limite ERROR_LIMIT est déclarée, spécifie une table d'erreur dans laquelle les lignes contenant des erreurs de format sont enregistrées lors de l'exécution en mode isolation d'une ligne. Vous pouvez observer cette table d'erreurs afin de voir les lignes en erreur n'ayant pas été chargées (s'il y en a).

 

Log file

Parcourez votre système ou saisissez le chemin d'accès à votre fichier de log.

 

Encoding

Saisissez le type d'encodage dans le champ.

 

Specify gpload path

Cochez cette case afin de spécifier le chemin d'accès complet à l'exécutable gpload. Vous devez cocher cette case si le chemin d'accès n'est pas spécifié dans la variable d'environnement PATH.

 

Full path to gpload executable

Chemin d'accès complet à l'exécutable gpload sur la machine en cours d'utilisation. Il est recommandé de spécifier le chemin d'accès dans la variable d'environnement PATH au lieu de sélectionner cette option.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables 

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

GPLOAD_OUTPUT : les informations de sortie lors de l'exécution de l'utilitaire gpload. Cette variable est une variable After et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est principalement utilisé lorsque des transformations particulières ne sont pas requises sur les données à charger dans la base de données.

Ce composant peut être utilisé en standalone ou en tant que composant de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page https://help.talend.com/display/KB/How+to+install+external+modules+in+the+Talend+products (en anglais) ou la section décrivant comment configurer le studio, dans le Guide d'installation et de migration Talend.

Scénario associé

Pour un scénario associé, consultez Scénario : Insérer des données dans une base MySQL du composant tMysqlOutputBulkExec.