Scénario : Manipuler des données avec Redshift - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job qui écrit des informations personnelles dans Redshift puis récupère ces informations et les affiche dans la console.

Le scénario utilise les six composants suivants :

  • un tRedshiftConnection, qui ouvre une connexion à Redshift.

  • un tFixedFlowInput, qui définit la structure des informations personnelles et envoie ces données au composant suivant.

  • un tRedshiftOutput, qui écrit les données reçues par le composant précédent dans Redshift.

  • un tRedshiftInput, qui lit les données depuis Redshift.

  • un tLogRow, qui affiche les données reçues par le composant précédent dans la console.

  • et un tRedshiftClose, qui ferme la connexion à Redshift.

Déposer et relier les composants

  1. Déposez les six composants listés précédemment depuis la Palette dans l'espace de modélisation graphique.

  2. Reliez le tFixedFlowInput au tRedshiftOutput à l'aide d'un lien Row > Main.

  3. Reliez le tRedshiftInput au tLogRowà l'aide d'un lien Row > Main.

  4. Reliez le tRedshiftConnection au tFixedFlowInput à l'aide d'un lien Trigger > OnSubjobOk.

  5. Reliez le tFixedFlowInput au tRedshiftInput et le tRedshiftInput au tRedshiftClose à l'aide de liens Trigger > OnSubjobOk.

Configurer les composants

Ouvrir une connexion à Redshift

  1. Double-cliquez sur le tRedshiftConnection afin d'ouvrir sa vue Basic settings.

  2. Sélectionnez Built-Indepuis la liste Property Type.

    Dans les champs Host, Port, Database, Schema, Username et Password, saisissez les informations nécessaires pour se connecter à Redshift.

  3. Dans la vue Advanced settings, cochez la case Auto Commit afin de commiter tous les changements à vers Redshift à chaque transaction.

Définir les données d'entrée

  1. Double-cliquez sur le tFixedFlowInput afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir l'éditeur de schéma.

  3. Dans l'éditeur de schéma, cliquez sur le bouton [+] pour ajouter trois colonnes : id de type Integer, name de type String et age de type Integer.

  4. Cliquez sur OK pour valider les modifications puis acceptez la propagation proposée par la fenêtre pop-up [Propagate] en appuyant sur le bouton Yes.

  5. Dans la zone Mode, sélectionnez Use Inline Content (delimited file) et saisissez les informations personnelles dans le champ Content.

    1;Arthur;16
    2;Ford;18
    3;Jackson;17

Écrire les données dans Redshift

  1. Double-cliquez sur le composant tRedshiftOutput pour ouvrir sa vue Basic settings.

  2. Cochez la case Use an existing connection puis sélectionnez la connexion précédemment configurée dans le tRedshiftConnection, dans la liste déroulante Component List.

  3. Dans le champ Table, parcourez ou saisissez le chemin d'accès à la table dans laquelle écrire les données, redshiftexample dans ce scénario.

  4. Sélectionnez Drop table if exists and create dans la liste Action on table et sélectionnez Insert dans la liste Action on data.

  5. Cliquez sur Sync columns afin de récupérer le schéma du composant précédent.

Récupérer les données de Redshift

  1. Double-cliquez sur le tRedshiftInput pour ouvrir sa vue Basic settings.

  2. Cochez la case Use an existing connection et sélectionnez la connexion précédemment configurée dans le tRedshiftConnection, dans la liste Component List.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur de schéma.

  4. Dans l'éditeur de schéma, cliquez trois fois sur le bouton [+] pour ajouter trois colonnes, respectivement : id, de type Integer, name, de type String et age, de type Integer. La structure des données est la même que celle définie dans le tFixedFlowInput.

  5. Cliquez sur OK afin de valider les modifications, puis acceptez la propagation proposée par la fenêtre [Propagate] qui s'ouvre.

  6. Dans le champ Table Name, parcourez ou saisissez le chemin d'accès à la table dans laquelle vous souhaitez écrire les données, redshiftexample dans cet exemple.

  7. Cliquez sur le bouton Guess Query pour générer la requête. Le champ Query contient automatiquement la requête générée.

Afficher les informations définies

  1. Double-cliquez sur le tLogRow pour ouvrir sa vue Basic settings.