tRedshiftOutputBulk - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Les composants tRedshiftOutputBulk et tRedshiftBulkExec sont généralement utilisés ensemble comme deux parties d'un processus pour charger des données dans Amazon Redshift à partir d'un fichier CSV/délimité dans Amazon S3. Au cours de la première étape, un fichier délimlité/CSV est généré. Au cours de la seconde étape, le fichier est utilisé dans une instruction INSERT utilisée pour alimenter. Cette exécution en deux étapes est unifiée dans le composant tRedshiftOutputBulkExec. L'intérêt de proposer deux composants séparés réside dans le fait que cela permet de procéder à des transformations avant le changement des données dans Amazon Redshift.

Fonction

Le composant tRedshiftOutputBulk reçoit des données du composant précédent, génère un fichier délimité/CSV et charge le fichier dans Amazon S3.

Objectif

Ce composant vous permet de préparer un fichier délimité/CSV pouvant être utilisé par le tRedshiftBulkExec pour alimenter Amazon Redshift.

Propriétés du tRedshiftOutputBulk

Famille du composant

Databases/Amazon/Redshift

 

Basic settings

Data file path at local

Spécifiez le chemin d'accès local au fichier à générer.

Notez que ce fichier est généré sur la machine où est installé le Studio ou sur laquelle le Job utilisant ce composant est déployé.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

 

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Append the local file

Cochez cette case pour écrire à la suite les données dans le fichier local spécifié s'il existe déjà, au lieu de l'écraser.

 

Compress the data file

Cochez cette case et sélectionnez dans la liste un type de compression pour le fichier de données.

Cette case est indisponible lorsque la case Append the local file est cochée.

 

Encrypt

Cochez cette case pour générer et charger le fichier de données dans Amazon S3 en utilisant le chiffrement côté client. Dans le champ Encryption key affiché, saisissez la clé de chiffrement utilisée pour chiffrer le fichier.

Cette case est décochée par défaut et le fichier de données est chargé dans Amazon S3 en utilisant le chiffrement côté serveur.

Pour plus d'informations sur les chiffrements côté client et côté serveur, consultez Protecting Data Using Encryption.

S3 Setting

Access Key

Spécifiez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de votre clé d'accès et clé secrète, consultez Getting Your AWS Access Keys (en anglais).

 

Secret Key

Spécifiez la clé secrète d'accès, constituant les informations de sécurité, ainsi que la clé d'accès.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

 

Bucket

Saisissez le nom du bucket Amazon S3, le dossier de plus haut niveau, dans lequel charger le fichier.

 

Key

Saisissez la clé d'objet assignée au fichier chargé dans Amazon S3.

Advanced settings

Field Separator

Saisissez le caractère utilisé pour séparer les champs.

 

Text enclosure

Sélectionnez le caractère avec lequel entourer les champs.

 

Delete local file after putting it to s3

Cochez cette case pour supprimer le fichier local après son chargement dans Amazon S3. Par défaut, cette case est cochée.

 

Create directory if not exists

Cochez cette case pour créer le répertoire spécifié dans le champ Data file path at local s'il n'existe pas. Par défaut, cette case est cochée.

 

Encoding

Sélectionnez un type d'encodage pour les données dans le fichier à générer.

S3 Setting

Config client

Cochez cette case afin de configurer les paramètres clients pour Amazon S3. Cliquez sur le bouton [+] sous la table pour ajouter autant de lignes que nécessaire, chaque ligne pour un paramètre client et configurez les attributs suivants pour chaque paramètre :

  • Client Parameter : cliquez dans la cellule et sélectionnez un paramètre dans la liste déroulante.

  • Value : saisissez la valeur du paramètre client correspondant.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du Job ainsi qu'au niveau de chaque composant.

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé avec le composant tRedshiftBulkExec pour alimenter Amazon Redshift avec un fichier délimité/CSV. Utilisés ensemble, ils permettent de maximiser les performances lorsqu'ils alimentent Amazon Redshift.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Scénario associé

Pour un scénario associé, consultez Scénario: charger/retirer des données dans/de Amazon S3.