Ajout d'un jeu de données depuis Amazon S3 - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Talend Data Preparation peut se connecter à différentes sources de données afin de créer de nouveaux jeux de données.

Dans cet exemple, vous allez préparer des données clients stockées dans Amazon S3. Vous allez saisir vos informations de connexion à Amazon S3, directement dans l'interface de Talend Data Preparation et créer un nouveau jeu de données à partir de ces données.

Procédure

  1. Dans la vue Datasets de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche près du bouton Add Dataset.
  2. Sélectionnez From Amazon S3.

    Le formulaire Add an Amazon S3 dataset s'ouvre.

  3. Dans le champ Dataset name, saisissez le nom à donner à votre jeu de données, Amazon S3 dataset, par exemple.
  4. Cochez la case Specify AWS credentials.

    Pour cet example, la case sera cochée, mais Amazon recommande de spécifier vos identifiants à l'aide d'une des méthodes listées dans la page Using the Default Credential Provider Chain (en anglais). Vous n'aurez pas besoin de saisir manuellement vos identifiants AWS à chaque fois et vous pourrez laisser la case décochée.

    La méthode Amazon ECS container credentials sur cette page n'est pas supportée pour Talend Data Preparation.

    Cette procédure doit être terminée sur le serveur de Components Catalog, ainsi que sur le serveur de Spark Job Server, si vous utilisez Talend Data Preparation avec Big Data.

  5. Saisissez votre clé d'accès et votre clé secrète Amazon S3 dans les champs correspondants.
  6. Cliquez sur Test connection.

    Si la connexion est établie, la seconde partie du formulaire est affichée, dans laquelle vous pouvez sélectionnez l'objet à importer. Si la connexion n'est pas établie, un message d'erreur est affiché, détaillant les raisons de l'échec.

  7. Dans les listes Region et Bucket, sélectionnez l'emplacement de vos données dans Amazon S3.

    Vous pouvez spécifier une valeur personnalisée dans le champ Region.

  8. Dans le champ Object, saisissez le chemin d'accès au jeu de données à importer depuis votre bucket.
  9. Sélectionnez le format, le délimiteur d'enregistrements et le délimiteur de champs de vos données, dans les listes correspondantes.
  10. Cliquez sur le bouton Add dataset au bas du formulaire.

Résultats

Une fois l'import terminé, les données extraites d'Amazon S3 s'ouvrent directement dans la grille et vous pouvez commencer à travailler sur votre préparation de la manière habituelle.

Les données sont toujours stockées dans Amazon S3, Talend Data Preparation récupère un échantillon à la demande.

Le jeu de données est ajouté à la liste dans la vue Datasets de la page d'accueil.