tS3List - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Propriétés du tS3List

Famille du composant

Cloud/AmazonS3

 

Fonction

Le composant tS3List permet de lister les fichiers dans Amazon S3 selon les paramètres de préfixe du bucket ou du fichier.

Objectif

Le tS3List est conçu pour lister les fichiers dans Amazon S3 selon les paramètres de filtre sur le bucket ou le fichier définis.

Basic settings

Use existing connection

Cochez cette case et sélectionnez le composant de connexion adéquat à partir de la liste Component List pour réutiliser les paramètres d'une connexion que vous avez déjà définie.

 

Access Key

L'ID de la clé d'accès (Access Key) identifie uniquement un compte AWS. Pour plus d'informations concernant la clé d'accès et sa sécurité, consultez le site Getting Your AWS Access Keys (en anglais).

 

Access Secret

La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

 

Region

Spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste ou en saisissant le nom de la zone entre guillemets doubles ("us-east-1" par exemple) dans la liste. Pour plus d'informations sur les zones géographiques AWS, consultez Regions and Endpoints (en anglais).

 

List all bucket objects

Cochez cette case pour lister tous les fichiers sur le serveur S3.

Key prefix : saisissez le préfixe des fichiers à lister. Ainsi, seuls les fichiers contenant ce préfixe seront listés.

 

Bucket

Cliquez sur le bouton [+] pour ajouter une ou plusieurs lignes afin de définir les préfixes des buckets et fichiers.

Bucket name : nom du bucket, le dossier de plus haut niveau, duquel lister les fichiers.

Key prefix : préfixe des fichiers à lister.

Cette option est indisponible lorsque la case List all bucket objects est cochée.

 

Die on error

Cette case est décochée par défaut et permet de terminer le traitement avec les lignes sans erreur, et ignorer les lignes en erreur.

Advanced settings

Config client

Cochez cette case pour configurer des paramètres client.

Client parameter : sélectionnez les paramètres client dans la liste.

Value : saisissez la valeur des paramètres.

Cette option n'est pas disponible lorsque la case Use existing connection est cochée.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Dynamic settings

Cliquez sur le bouton [+] pour ajouter une ligne à la table. Dans le champ Code, saisissez une variable de contexte afin de sélectionner dynamiquement votre connexion à la base de données parmi celles prévues dans votre Job. Cette fonctionnalité est utile si vous devez accéder à plusieurs tables de bases de données ayant la même structure mais se trouvant dans différentes bases de données, en particulier lorsque vous travaillez dans un environnement dans lequel vous ne pouvez pas changer les paramètres de votre Job, par exemple lorsque votre Job doit être déployé et exécuté dans un Studio Talend indépendant.

Lorsqu'un paramètre dynamique est configuré, la liste Component List devient inaccessible dans la vue Basic settings.

Pour des exemples sur l'usage des paramètres dynamiques, consultez Scénario 3 : Lire des données dans des bases de données MySQL à l'aide de connexions dynamiques basées sur les variables de contexte et Scénario : Lire des données à partir de différentes bases de données MySQL à l'aide de paramètres de connexion chargés dynamiquement. Pour plus d'informations concernant les Dynamic settings et les variables de contexte, consultez le Guide utilisateur du Studio Talend.

Global Variables

CURRENT_BUCKET : nom du bucket courant. Cette variable est une variable Flow et retourne une chaîne de caractères.

CURRENT_KEY : clé courante. Cette variable est une variable Flow et retourne une chaîne de caractères.

NB_BUCKET : nombre de buckets. Cette variable est une variable After et retourne un nombre entier.

NB_BUCKET_OBJECT : nombre d'objets dans tous les buckets. Cette variable est une variable After et retourne un nombre entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant peut être utilisé en standalone ou avec d'autres composants S3, comme le tS3Delete.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page https://help.talend.com/display/KB/How+to+install+external+modules+in+the+Talend+products (en anglais) ou la section décrivant comment configurer le studio, dans le Guide d'installation et de migration Talend.

Scénario : Lister les fichiers d'un bucket ayant le même préfixe

Dans ce scénario, le tS3List est utilisé pour lister tous les fichiers d'un bucket ayant le même préfixe.

Voici les fichiers du bucket :

Pour plus d'informations concernant la création d'un bucket et comment y mettre des fichiers, consultez Scénario : Vérifier l'absence d'un bucket, le créer et lister tous les buckets S3 et Scénario : Echange de fichiers avec Amazon S3 .

Construire le Job

  1. De la Palette, déposez un composant tS3Connection, un tS3List, un tIterateToFlow, un tLogRow et un tS3Close dans l'espace de modélisation graphique.

  2. Reliez le tS3Connection au tS3List à l'aide d'un lien OnSubjobOk.

  3. Reliez le tS3List au tIterateToFlow à l'aide d'un lien Row > Iterate.

  4. Reliez le tIterateToFlow au tLogRow à l'aide d'un lien Row > Main.

  5. Reliez le tS3List au tS3Close à l'aide d'un lien OnSubjobOk.

Configurer les composants

  1. Double-cliquez sur le tS3Connection pour ouvrir sa vue Basic settings.

  2. Dans les champs Access Key et Secret Key, saisissez les informations d'authentification.

  3. Double-cliquez sur le tS3List pour ouvrir sa vue Basic settings.

  4. Cochez la case Use existing connection afin de réutiliser la connexion définie précédemment.

  5. Dans la table Bucket, cliquez sur le bouton [+] pour ajouter une ligne.

  6. Dans les champs Bucket name et Key prefix, saisissez le nom du bucket et le préfixe du fichier.

    Ainsi, seuls les fichiers ayant le préfixe spécifié seront listés.

  7. Double-cliquez sur le tIterateToFlow pour ouvrir sa vue Basic settings.

  8. Cliquez sur Edit schema pour ouvrir l'éditeur du schéma.

    Cliquez sur le bouton [+] pour ajouter une colonne. Nommez-la file_list et définissez son type à String.

    Cliquez sur OK pour valider la configuration et fermer l'éditeur.

  9. Dans la table Mapping, appuyez sur les touches Ctrl+Espace dans la colonne Value afin de sélectionner la variable tS3List_1_CURRENT_KEY.

  10. Double-cliquez sur le tLogRow pour ouvrir sa vue Basic settings.

    Sélectionnez l'option Table (print values in cells of a table) pour un affichage optimal des résultats.

  11. Double-cliquez sur le composant tS3Close afin d'ouvrir sa vue Basic settings.

    Comme un seul composant de connexion est utilisé dans ce Job, vous n'avez pas besoin de le sélectionner dans la liste Component List, il est sélectionné par défaut.

Exécuter le Job

  1. Appuyez sur les touches Ctrl+S afin de sauvegarder votre Job.

  2. Appuyez sur la touche F6 pour exécuter le Job.

    Comme affiché ci-dessus, seuls les fichiers ayant le préfixe "in" sont listés.