tNetezzaNzLoad - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce composant invoque l'utilitaire nzload de Netezza afin d'insérer des enregistrements dans une base de données Netezza. Ce composant peut être utilisé soit en mode standalone, il chargera alors les données à partir d'un fichier de données existant, soit connecté à un flux d'entrée, afin de charger des données à partir du composant connecté.

Propriétés du tNetezzaNzLoad

Famille du composant

Databases/Netezza

 

Fonction

Le composant tNetezzaNzLoad insère des données dans la table d'une base de données Netezza via l'utilitaire nzload de Netezza.

Objectif

Ce composant permet de charger en masse des données dans une table Netezza soit à partir d'un fichier, soit à partir d'un flux d'entrée, soit à partir d'un tube nommé.

Basic settings

Property type

Peut être Built-in ou Repository

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Propriétés utilisées ponctuellement.

 

 

Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées.

 

Host

Adresse IP du serveur de base de données.

 

Port

Numéro du port d'écoute du serveur de base de données.

 

Database

Nom de la base de données.

 

Username et Password

Informations d'authentification de l'utilisateur de base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles, puis cliquez sur OK afin de sauvegarder les paramètres.

 

Table

Nom de la table dans laquelle les données doivent être insérées.

 

Action on table

Vous pouvez effectuer l'une des opérations suivantes sur les données de la table sélectionnée :

None : n'effectuer aucune opération de table.

Drop and create the table : supprimer la table puis en créer une nouvelle.

Create a table : créer une table qui n'existe pas encore.

Create table if doesn't exist : créer la table si nécessaire.

Clear a table : supprimer le contenu de la table.

Truncate table : supprimer rapidement le contenu de la table, mais sans possibilité de Rollback.

 

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

  

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Data file

Chemin d'accès complet au fichier de données à utiliser. Si ce composant est utilisé seul (non connecté à un autre composant par un flux d'entrée), alors saisissez le nom d'un fichier existant à charger dans la base de données. S'il est connecté à un autre composant par un flux d'entrée, saisissez le nom du fichier à générer et à écrire avec les données d'entrée, afin de l'utiliser plus tard avec nzload pour charger dans la base de données.

 

Use named-pipe

Cochez cette case afin d'utiliser un tube nommé à la place d'un fichier de données. Cette option ne peut être utilisée que lorsque le composant est connecté à un autre composant par un flux d'entrée. Quand la case est cochée, aucun fichier de données n'est généré, et les données sont transférées à l'utilitaire nzload via un tube nommé. Cette option améliore grandement les performances sous Linux et Windows.

Note

Ce composant, en mode tube nommé, utilise une interface JNI pour créer un tube nommé et écrire dedans, dans toute plateforme Windows. Le chemin d'accès associé au fichier DLL JNI doit être configuré dans le chemin d'accès à la bibliothèque Java. Le composant est automatiquement fourni dans le Studio Talend avec deux DLL pour les systèmes d'exploitation de 32 et 64 bits.

 

Named-pipe name

Spécifiez un nom pour le tube nommé à utiliser. Vérifiez que le nom saisi est valide.

Advanced settings

Use existing control file

Cochez cette case pour fournir un fichier de contrôle à utiliser avec l'utilitaire nzload au lieu de spécifier explicitement toutes les options dans le composant. Lorsque cette case est cochée, l'option Data file ainsi que les autres options liées au nzload ne s'appliquent plus. Veuillez vous référer au manuel du nzload de Netezza pour plus d'informations concernant la création d'un fichier de contrôle.

 

Control file

Saisissez le chemin d'accès au fichier de contrôle à utiliser, entre guillemets doubles, ou cliquez sur le bouton [...] afin de parcourir votre répertoire jusqu'au fichier de contrôle. Cette option est passée à l'utilitaire nzload via l'argument -cf.

 

Field separator

Caractère, chaîne de caractères ou expression régulière utilisé pour séparer les champs.

Avertissement

Argument delim de l'utilitaire nzload. Si vous n'utilisez pas l'option Wrap quotes around fields, vous devez être sûr que le délimiteur n'est pas inclus dans les données insérées dans la base de données. La valeur par défaut est \t ou TAB. Pour améliorer les performances, utilisez la valeur par défaut.

 

Wrap quotes around fields

Cette option ne s'applique qu'aux colonnes de type String, Byte, Byte[], Char, et Object. Sélectionnez soit :

None : n'entourez pas les valeurs des colonnes de guillemets.

Single quote : entourez les valeurs des colonnes de guillemets simples.

Double quote : entourez les valeurs des colonnes de guillemets doubles.

Avertissement

Si vous utilisez l'option Single quote ou Double quote, il est nécessaire d'utiliser \ en tant que Escape char.

 

Advanced options

Définissez les arguments nzload dans le tableau correspondant. Cliquez sur le bouton [+] autant de fois que nécessaire afin d'ajouter les arguments au tableau.

Cliquez sur le champ Parameter et choisissez l'argument souhaité dans la liste, puis cliquez sur le champ Value correspondant et saisissez une valeur entre guillemets.

Parameter

-If

Nom du fichier de log à générer. Les logs seront ajoutés à la suite du fichier de log, s'il existe déjà. Si le paramètre n'est pas spécifié, le nom par défaut du fichier de log est '<table_name>.<db_name>.nzlog'. Il est généré dans le répertoire de travail courant dans lequel le Job est exécuté.

 

-bf

Nom du fichier de mauvais enregistrements à générer. Le fichier de mauvais enregistrements contient tous les enregistrements ne pouvant être chargés, à cause d'une erreur interne Netezza. Les enregistrements seront ajoutés à la suite si le fichier de mauvais enregistrements existe déjà. Si le paramètre n'est pas spécifié, le nom par défaut du fichier de mauvais enregistrements est '<table_name>.<db_name>.nzbad'. Il est généré dans le répertoire de travail courant, dans lequel le Job est exécuté.

 

-ouputDir

Chemin d'accès au répertoire dans lequel les fichiers de log et de mauvais enregistrements sont générés. Si le paramètre n'est pas spécifié, les fichiers seront générés sous le répertoire courant dans lequel le Job est exécuté.

 

-logFileSize

Taille maximale du fichier de log. La valeur est en MB. La valeur par défaut est de 2000 ou 2GB. Pour économiser de l'espace disque, spécifiez un petite valeur si votre Job est souvent exécuté.

 

-compress

Sélectionnez cette option si le fichier de données est compressée. Les valeurs valides sont "TRUE" et "FALSE". La valeur par défaut est "FALSE".

Note

Cette option n'est valide que si ce composant est utilisé par lui-même et non connecté à un autre composant via un flux d'entrée.

 

-skipRows <n>

Nombre de lignes à ignorer au début du fichier de données. Paramétrez la valeur à "1" si vous souhaitez ignorer la ligne d'en-tête du fichier d'entrée. La valeur par défaut est "0".

Note

Cette option ne doit être sélectionnée que si le composant est utilisé par lui-même et non connecté à un autre composant via un flux d'entrée.

 

-maxRows <n>

Nombre de lignes à charger à partir du fichier d'entrée.

Note

Cette option ne doit être sélectionnée que si le composant est utilisé par lui-même et non connecté à un autre composant via un flux d'entrée.

 

-maxErrors

Nombre maximal d'enregistrements d'erreurs à autoriser avant de terminer le processus de chargement. La valeur par défaut est "1".

 

-ignoreZero

Les zéros contenus dans une source binaire généreront des erreurs. Paramétrez cette option à "NO" pour générer des erreurs ou à "YES" pour ignorer les bits ayant la valeur zéro. La valeur par défaut est "NO".

 

-requireQuotes

Cette option nécessite que toutes les valeurs soient entourées de guillemets. La valeur par défaut est "FALSE".

Note

Cette option ne fonctionne pas avec un flux d'entrée pour le moment. Utilisez cette option uniquement en mode standalone avec un fichier existant.

 

-nullValue <token>

Spécifiez le jeton pour indiquer une valeur null dans le fichier de données. La valeur par défaut est "NULL". Afin d'améliorer légèrement les performances, vous pouvez configurer cette valeur comme un champ vide en spécifiant la valeur : "\'\'".

 

-fillRecord

Traite les derniers champs d'entrée manquants comme des null. Vous n'avez pas besoin de spécifier de valeur pour cette option dans le champ du tableau. Cette option n'est pas activée par défaut, les champs d'entrée devront donc correspondre exactement à toutes les colonnes de la table par défaut.

Note

Les derniers champs d'entrée doivent être nullables dans la base de données.

 

-ctrlChar

Accepte les caractères de contrôle dans les champs char/varchar (vous devrez échapper les caractères NUL, CR et LF). Vous n'avez pas besoin de spécifier de valeur pour cette option dans le champ de valeur du tableau. Cette option est désactivée par défaut.

 

-ctInString

Accepte le caractère CR non échappé dans des champs char/varchar (LF devient une fin de ligne). Vous n'avez pas besoin de spécifier de valeur pour cette option dans le champ de valeur du tableau. Cette option est désactivée par défaut.

 

-truncString

Tronque toute valeur de chaîne de caractères qui dépasse sa valeur déclarée de stockage char/varchar. Vous n'avez pas besoin de spécifier de valeur pour cette option dans le champ de valeur du tableau. Cette option est désactivée par défaut.

 

-dateStyle

Spécifiez le format de la date des données d'entrée. Les valeurs valides sont : "YMD", "Y2MD", "DMY", "DMY2", "MDY", "MDY2", "MONDY", "MONDY2". La valeur par défaut est "YMD".

Note

Le format de date dans la colonne du schéma du composant doit correspondre à la valeur spécifiée ici. Par exemple, si vous souhaitez charger une colonne DATE, spécifiez ainsi le format de date dans le schéma du composant : "yyyy-MM-dd" et paramétrez l'option -dateStyle à "YMD".

Pour une description plus précise du chargement de champs de dates et de temps, consultez Charger des colonnes de type DATE, TIME et TIMESTAMP.

 

-dateDelim

Caractère délimiteur entre les parties d'une date. La valeur par défaut est "-" pour tous les styles de date, sauf pour "MONDY[2]" pour lequel elle est " " (espace vide).

Note

Le format de date dans la colonne du schéma du composant doit correspondre à la valeur spécifiée ici.

 

-y2Base

Première année exprimable via l'utilisation du style de date à deux chiffres (Y2).

 

-timeStyle

Spécifiez le format du temps dans les données d'entrée. Les valeurs valides sont : "24HOUR" et "12HOUR". La valeur par défaut est "24HOUR". Pour améliorer légèrement les performances, gardez la valeur par défaut.

Note

Le format de temps dans la colonne du schéma du composant doit correspondre à la valeur spécifiée ici. Par exemple, si vous souhaitez charger une colonne de type TIME, configurez le format de date dans le schéma du composant à "HH:mm:ss" et l'option -timeStyle à "24HOUR".

Pour une description plus précise du chargement de champs de dates et de temps, consultez Charger des colonnes de type DATE, TIME et TIMESTAMP.

 

-timeDelim

Caractère délimiteur entre les parties d'une donnée de temps. La valeur par défaut est ":".

Note

Le format de temps dans la colonne du schéma du composant doit correspondre à la valeur spécifiée ici.

 

-timeRoundNanos

Autorise mais arrondit les nombres différents de zéro plus petits qu'une microseconde.

 

-boolStyle

Spécifiez le format dans lequel les données de type Boolean sont écrites dans les données. Les valeurs valides sont : "1_0", "T_F", "Y_N", "TRUE_FALSE", "YES". La valeur par défaut est "1_0". Pour améliorer légèrement les performances, gardez la valeur par défaut.

 

-allowRelay

Permet de continuer le chargement malgré une ou plusieurs réinitialisation(s) ou échec(s) des SPU (Snippet Processing Unit). Par défaut, ce comportement n'est pas autorisé.

 

-allowRelay <n>

Spécifiez le nombre de continuations du chargement autorisé. La valeur par défaut est "1".

 

Encoding

Sélectionnez l'encodage à partir de la liste.

 

Specify nzload path

Cochez cette case afin de spécifier le chemin d'accès complet à l'exécutable nzload. Vous devez cocher cette case si le chemin d'accès n'est pas spécifié dans la variable d'environnement PATH.

 

Full path to nzload executable

Chemin d'accès complet à l'exécutable nzload sur la machine en cours d'utilisation. Il est recommandé de spécifier le chemin d'accès dans la variable d'environnement PATH au lieu de sélectionner cette option.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

 

Enable parallel execution

Cocher cette case permet de traiter plusieurs flux de données simultanément. Cela permet de traiter les données plus rapidement. Notez que cette fonctionnalité dépend de la capacité de la base de données ou de l'application à gérer plusieurs insertions en parallèle ainsi que le nombre de processeurs utilisés. Dans le champ Number of parallel executions, vous pouvez :

  • Saisir le nombre d'exécutions parallèles désiré.

  • Appuyer sur Ctrl+Espace et sélectionner la variable de contexte dans la liste. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend.

Notez que, lorsque l'exécution parallèle est activée, il n'est pas possible d'utiliser les variables globales pour récupérer les valeurs de retour dans un sous-job.

Avertissement

  • Le champ Action on table n'est pas disponible avec la fonction de parallélisation. Ainsi, pour créer une table, vous devez utiliser un composant tCreateTable.

  • Lorsque l'exécution parallèle est activée, il n'est pas possible d'utiliser les variables globales pour retrouver les valeurs de retour dans un sous-job.

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est principalement utilisé lorsque des transformations particulières ne sont pas requises sur les données à charger dans la base de données.

Ce composant peut être utilisé en standalone ou en tant que composant de sortie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page https://help.talend.com/display/KB/How+to+install+external+modules+in+the+Talend+products (en anglais) ou la section décrivant comment configurer le studio, dans le Guide d'installation Talend.

Charger des colonnes de type DATE, TIME et TIMESTAMP

Lorsque ce composant est utilisé avec un flux d'entrée, le format de date spécifié dans le schéma du composant doit correspondre à la valeur spécifiée pour les options -dateStyle, -dateDelim, -timeStyle, et -timeDelim. Veuillez vous référer aux exemples suivants :

Type de données

Format de date dans le schéma

-dateStyle

-dateDelim

-timeStyle

-timeDelim

DATE

"yyyy-MM-dd"

"YMD"

"-"

n/a

n/a

TIME

"HH:mm:ss"

n/a

n/a

"24HOUR"

":"

TIMESTAMP

"yyyy-MM-dd HH:mm:ss"

"YMD"

"-"

"24HOUR"

":"

Scénario associé

Pour un scénario associé, consultez Scénario : Insérer des données dans une base MySQL du composant tMysqlOutputBulkExec.