Propriétés du tGreenplumGPLoad Standard - Cloud - 8.0

Greenplum

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Database (Intégration) > Composants Greenplum
Gouvernance de données > Systèmes tiers > Composants Database (Intégration) > Composants Greenplum
Qualité et préparation de données > Systèmes tiers > Composants Database (Intégration) > Composants Greenplum
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le tGreenplumGPLoad s'exécutant dans le framework de Jobs Standard.

Le composant tGreenplumGPLoad Standard appartient à la famille Bases de données.

Le composant de ce framework est disponible dans tous les produits Talend.

Basic settings

Property type

Peut-être Built-In ou Repository.

  • Built-In : propriétés utilisées ponctuellement.

  • Repository : sélectionnez le référentiel dans lequel sont stockées les propriétés. Les champs suivants sont automatiquement renseignés à l'aide des données récupérées.

Host

Adresse IP du serveur de base de données.

Port

Numéro du port d'écoute du serveur de base de données.

Database

Nom de la base de données Greenplum.

Schema

Nom du schéma.

Username et Password

Données d'authentification de l’utilisateur ou l'utilisatrice de la base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

Table

Nom de la table dans laquelle les données doivent être insérées.

Action on table

Vous pouvez effectuer l'une des opérations suivantes sur les données de la table sélectionnée :

None : n'effectuer aucune opération de table.

Clear a table : supprimer le contenu de la table.

Create table : créer une table qui n'existe pas encore.

Create table if not exists : créer la table si nécessaire.

Drop and create table : supprimer la table, puis en créer une nouvelle.

Drop table if exists and create : supprimer la table si elle existe déjà, puis en créer une nouvelle.

Truncate table : supprimer le contenu de la table. Vous ne pouvez pas annuler l'opération (rollback).

Action on data

Sélectionnez l'opération que vous voulez effectuer :

Insert : ajoute de nouvelles entrées à la table. Le Job s'arrête lorsque des doublons sont trouvés.

Update : mettre à jour les entrées existantes.

Merge : mettre à jour ou ajouter des données dans la table.

Avertissement :

Il est nécessaire de spécifier au moins une colonne comme étant une clé primaire sur laquelle baser les opérations Update et Merge. Vous pouvez faire ceci en cliquant sur Edit Schema et en cochant la case correspondant à la colonne (aux colonnes) que vous souhaitez définir comme clé primaire. Pour configurer les options des opérations Update et Merge, cochez les cases de la colonne Match Column correspondant aux noms des colonnes que vous souhaitez utiliser comme base pour les opérations Update et Merge. Ensuite, cochez les cases de la colonne Update Column correspondant aux noms des colonnes que vous souhaitez mettre à jour. Pour configurer le champ Update condition, saisissez la condition qui sera utilisée pour mettre à jour les données.

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

  • Built-in : le schéma est créé et conservé localement pour ce composant seulement.

  • Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs.

    Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.

Data file

Chemin d'accès complet au fichier de données à utiliser. Si ce composant est utilisé seul (non connecté à un autre composant par un flux d'entrée), alors saisissez le nom d'un fichier existant à charger dans la base de données. S'il est connecté à un autre composant par un flux d'entrée, saisissez le nom du fichier à générer et à écrire avec les données d'entrée, afin de l'utiliser plus tard avec gpload pour charger dans la base de données. Ce champ est masqué lorsque la case Use named-pipe est cochée.

Populate column list based on the schema

Sélectionnez cette option pour ajouter au fichier YAML les colonnes définies dans le schéma. Cela est très utile si la table cible contient des colonnes supplémentaires (par exemple, pour charger uniquement les clés primaires dans une table de préparation). Sélectionner cette option génère la section COLUMNS: dans le fichier YAML.

Use named-pipe

Cochez cette case afin d'utiliser un tube nommé à la place d'un fichier de données. Cette option ne peut être utilisée que lorsque le composant est connecté à un autre composant par un flux d'entrée. Quand la case est cochée, aucun fichier de données n'est généré, et les données sont transférées à l'utilitaire gpload via un tube nommé. Cette option améliore grandement les performances sous Linux et Windows.

Remarque :

Ce composant, en mode tube nommé, utilise une interface JNI pour créer un tube nommé et écrire dedans, dans toute plateforme Windows. Le chemin d'accès associé au fichier DLL JNI doit être configuré dans le chemin d'accès à la bibliothèque Java. Le composant est automatiquement fourni dans le Studio Talend avec deux DLL pour les systèmes d'exploitation de 32 et 64 bits.

Named-pipe name

Spécifiez un nom pour le tube nommé à utiliser. Vérifiez que le nom saisi est valide.

Die on error

Cette case est cochée par défaut. Décochez cette case pour terminer le traitement avec les lignes sans erreur, et ignorer les lignes en erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur en utilisant un lien de type Row > Rejects.

Paramètres avancés

DB driver

Sélectionnez le pilote de base de données à utiliser dans la liste déroulante, pouvant être Greenplum et PostgreSQL. La valeur par défaut est Greenplum.

Paramètres supplémentaires

Spécifiez des paramètres supplémentaires pour la connexion à la base de données.

Use existing control file (YAML formatted)

Cochez cette case pour fournir un fichier de contrôle à utiliser avec l'utilitaire gpload au lieu de spécifier explicitement toutes les options dans le composant. Lorsque cette case est cochée, l'option Data file ainsi que les autres options liées à l'utilitaire gpload ne s'appliquent plus. Veuillez vous référer au manuel du gpload de Greenplum pour plus d'informations concernant la création d'un fichier de contrôle.

Control file

Saisissez le chemin d'accès au fichier de contrôle à utiliser, entre guillemets doubles, ou cliquez sur le bouton [...] afin de parcourir votre répertoire jusqu'au fichier de contrôle. Cette option est passée à l'utilitaire gpload via l'argument -f.

CSV mode

Cochez cette case pour inclure des paramètres spécifiques au format CSV, tels que Escape char et Text enclosure.

Field separator

Caractère, chaîne de caractères ou expression régulière utilisé pour séparer les champs.

Avertissement :

Argument delim de l'utilitaire gpload. La valeur par défaut est |. Pour améliorer les performances, utilisez la valeur par défaut.

Escape char

Caractère d'échappement de la ligne.

Text enclosure

Caractères utilisés pour entourer le texte.

Header (skips the first row of data file)

Cochez cette case pour ignorer la première ligne du fichier de données.

Additional options

Définissez les arguments gpload dans le tableau correspondant. Cliquez sur le bouton [+] autant de fois que nécessaire afin d'ajouter les arguments au tableau. Cliquez sur le champ Parameter et choisissez l'argument souhaité dans la liste, puis cliquez sur le champ Value correspondant et saisissez une valeur entre guillemets.

  • LOCAL_HOSTNAME : nom de l'hôte ou adresse IP de la machine sur laquelle gpload fonctionne. Si cette machine est configurée avec plusieurs cartes réseau, vous pouvez spécifier le nom de l'hôte ou l'adresse IP de chaque carte réseau, afin de permettre au trafic d'utiliser simultanément toutes les cartes réseau. Par défaut, l'hôte local ou adresse IP principal·e est utilisé·e.
  • PORT (gpfdist port) : numéro du port spécifique devant être utilisé par le programme de distribution du fichier gpfdist. Vous pouvez également renseigner PORT_RANGE afin de sélectionner un port disponible dans l'écart spécifié. Si PORT et PORT_RANGE sont spécifiés, PORT prévaut. Si ni PORT, ni PORT_RANGE n'est spécifié, un port disponible entre 8000 et 9000 est sélectionné par défaut. Si plusieurs noms d'hôtes sont déclarés dans LOCAL_HOSTNAME, le numéro du port est utilisé pour tous les hôtes. Cette configuration est souhaitée si vous voulez utiliser toutes les cartes réseau pour charger le même fichier ou le même ensemble de fichiers dans un répertoire donné.

  • PORT_RANGE : peut être utilisé à la place de PORT (gpfdist port) afin de spécifier une plage de numéros de ports parmi lesquels gpload peut choisir un port disponible pour cette instance du programme de distribution du fichier gpfdist.

  • NULL_AS : chaîne de caractères représentant une valeur null. La valeur par défaut est \N en mode TEXT et une valeur vide sans guillemet en mode CSV. Tout élément de données source correspondant à cette chaîne de caractères sera considéré comme valeur null.

  • FORCE_NOT_NULL : en mode CSV, traite chaque colonne spécifiée comme si elle était entourée de guillemets et n'était donc pas une valeur NULL. Pour la chaîne de caractères null par défaut en mode CSV (aucun caractère entre deux séparateurs), cela crée des valeurs manquantes à évaluer comme des chaînes de caractères de longueur zéro.

  • ERROR_LIMIT (2 or higher) : active le mode d'isolation d'une ligne pour cette opération de chargement. Lorsqu'il est activé et que le nombre maximal d'erreurs n'est pas atteint pour les instances de segments Greenplum durant le traitement de l'entrée, toutes les lignes correctes sont chargées et les lignes ayant des erreurs de format sont rejetées ou enregistrées dans la table ERROR_TABLE, si elle est disponible. Si le nombre limite d'erreurs est atteint, les lignes d'entrée ayant des erreurs de format arrêtent l'opération de chargement. Notez que l'isolation d'une ligne en erreur s'applique uniquement aux lignes de données ayant des erreurs de format, par exemple, des attributs manquants ou supplémentaires, des attributs d'un mauvais type de données ou des séquences d'encodage client invalides. Des erreurs de contraintes, telles que les violations de clé primaire, provoquent toujours l'arrêt du chargement. Lorsque cette option n'est pas activée, l'opération de chargement s'arrête à la première erreur rencontrée.

  • ERROR_TABLE : lorsque la limite ERROR_LIMIT est déclarée, spécifie une table d'erreur dans laquelle les lignes contenant des erreurs de format sont enregistrées lors de l'exécution en mode isolation d'une ligne. Vous pouvez observer cette table d'erreurs afin de voir les lignes en erreur n'ayant pas été chargées (s'il y en a).

  • LOG_ERRORS : True ou False. La valeur par défaut est False. Une valeur True enregistre en interne les lignes avec erreurs de formatage. Consultez la section Control File Format > GPLOAD > LOG_ERRORS de gpload pour plus d'informations.
  • MAX_LINE_LENGTH : entier spécifiant la longueur maximale d'une ligne dans les données de transformation XML passées à gpload.
  • EXTERNAL_SCHEMA (_ext_stg_objects) : spécifie le schéma des objets de base de données externe créés par gpload. Saisissez le nom du schéma de la table externe dans le champ Value. Consultez la section Control File Format > GPLOAD > EXTERNAL de gpload pour plus d'informations.
  • PRELOAD_TRUNCATE, PRELOAD_REUSE_TABLES, PRELOAD_STAGING_TABLE et PRELOAD_FAST_MATCH : spécifie les opérations à effectuer avant l'opération de chargement. Consultez la section Control File Format > PRELOAD de gpload pour plus d'informations.
  • SQL_BEFORE LOAD et SQL_AFTER LOAD : configure les commandes SQL à exécuter avec et/ou après l'opération de chargement. Consultez la section Control File Format > SQL de gpload pour plus d'informations.

Log file

Saisissez le chemin d'accès à votre fichier de log, ou parcourez votre répertoire.

Encoding

Saisissez le type d'encodage manuellement dans le champ.

Specify gpload path

Cochez cette case afin de spécifier le chemin d'accès complet à l'exécutable gpload. Vous devez cocher cette case si le chemin d'accès n'est pas spécifié dans la variable d'environnement PATH.

Full path to gpload executable

Chemin d'accès complet à l'exécutable gpload sur la machine en cours d'utilisation. Il est recommandé de spécifier le chemin d'accès dans la variable d'environnement PATH au lieu de sélectionner cette option.

Remove datafile on successful execution

Sélectionnez cette option pour supprimer le fichier de données généré si l'opération se termine correctement.

Gzip compress the datafile

Sélectionnez cette option pour compresser le fichier de données avec Gzip, ce qui économise l'espace disque d'environ 50-90 % de la taille originale. Cependant, cela augmente l'utilisation du processeur.

Statistiques du tStatCatcher

Cochez cette case pour collecter les données de log au niveau des composants.

Variables globales

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

GPLOAD_OUTPUT : les informations de sortie lors de l'exécution de l'utilitaire gpload. Cette variable est une variable After et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

NB_LINE_INSERTED : nombre de lignes insérées. Cette variable est une variable After et retourne un entier.

NB_LINE_UPDATED : nombre de lignes mises à jour. Cette variable est une variable After et retourne un entier.

NB_DATA_ERRORS : nombre d'erreurs survenues. Cette variable est une variable After et retourne un entier.

GPLOAD_STATUS : statut de l'opération de chargement. Cette variable est une variable After et retourne une chaîne de caractères.

GPLOAD_RUNTIME : coût en temps (en ms) de l'opération de chargement. Cette variable est une variable After de type long.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Utilisation

Règle d'utilisation

Ce composant est principalement utilisé lorsque des transformations particulières ne sont pas requises sur les données à charger dans la base de données.

Ce composant peut être utilisé en standalone ou en tant que composant de sortie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les JAR manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio Talend. Pour plus d'informations, consultez la page Installation de modules externes.