Écrire les données d'agrégation sur les incidents de rue dans EMR - 7.2

Amazon S3

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Gouvernance de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3
Qualité et préparation de données > Systèmes tiers > Services Amazon (Intégration) > Composants Amazon S3

Procédure

  1. Double-cliquez sur le composant tFileOutputParquet pour ouvrir sa vue Component.

    Exemple

  2. Cochez la case Define a storage configuration component et sélectionnez le composant tS3Configuration configuré au cours des étapes précédentes.
  3. Cliquez sur Sync columns pour vous assurer que le tFileOutputParquet retrouve le schéma du côté de sortie de tAggregateRow.
  4. Dans le champ Folder/File, saisissez le nom du dossier à utiliser pour stocker les données d'agrégation dans le bucket S3 spécifié dans tS3Configuration. Par exemple, saisissez /sample_user afin que le dossier appelé sample_user à la racine du bucket soit utilisé lors de l'exécution pour stocker la sortie de votre Job.
  5. Dans la liste Action, sélectionnez Create si ce dossier n'existe pas encore dans le bucket à utiliser. Si ce dossier existe déjà, sélectionnez Overwrite.
  6. Cliquez sur Run pour ouvrir cette vue et cliquez sur l'onglet Spark Configuration pour ouvrir cette vue et configurer la connexion à Spark.
  7. Cochez la case Use local mode pour tester votre Job localement avant d'éventuellement le soumettre au cluster distant Spark.

    En mode local, le Studio construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs.

  8. Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job.
  9. Dans la vue Component du tFileOutputParquet, dans le champ Folder/File, changez le chemin du fichier en un répertoire local et ajustez l'action à exécuter dans la liste déroulante Action, à savoir créer un nouveau dossier ou écraser le dossier existant.
  10. Dans l'onglet Run, cliquez sur Basic Run puis cliquez sur Run pour exécuter localement votre Job afin de tester la logique du modèle.
  11. Lorsque votre Job s'exécute correctement, décochez la case Use local mode dans la vue Spark Configuration de l'onglet Run puis, dans l'espace de modélisation graphique de votre Job, activez les composants de configuration et annulez les modifications que vous venez de faire dans le tFileOutputParquet pour le test local.