Écriture côté serveur de données chiffrées KMS sur EMR - 7.3

Distribution Amazon EMR

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs > Distributions Hadoop > Amazon EMR

Si le service de chiffrement AWS SSE-KMS (chiffrement au repos) permet de configurer la propriété Default encryption pour protéger les données du système S3A de votre cluster EMR, sélectionnez l'option SSE-KMS dans tS3Configurationlors de l'écriture des données dans ce système S3A.

L'échantillon de données utilisé dans ce scénario porte sur différents types d'incidents rapportés par des clients, survenus dans Paris pendant la même journée.
1;226 rue marcadet, 75018 Paris;abandoned object;garbage on the street
2;2 rue marcadet, 75018 Paris;shift and damage;direction sign damaged
3;45 boulevard de la villette, 75010 Paris; abandoned object; suspicious package
4;10 rue emile lepeu, 75011 Paris;graffiti and improper poster;graffiti
5;27 avenue emile zola, 75015 Paris;shift and damage;deformed road
Cet échantillon de données est utilisé uniquement à des fins de démonstration.

Le Job calcule l'occurrence de chaque type d'incident.

Voici l'image du Job conçu pour écrire les données chiffrées sur EMR.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Prérequis :
  • Le système S3 à utiliser est S3A.
  • Le service de chiffrement SSE-KMS sur AWS doit être activé avec la fonctionnalité Default encryption et une clé CMK gérée par le client doit avoir été spécifiée.
  • Le cluster EMR à utiliser est créé avec SSE-KMS et le rôle EMR_EC2_DefaultRole a été ajouté à la CMK mentionnée ci-dessus.
  • L'administrateur de votre cluster EMR a attribué les droits et permissions appropriés au compte AWS utilisé dans vos Jobs.
  • Votre cluster EMR a été correctement configuré et est en cours d'exécution.
  • Un JobServer Talend a été déployé sur une instance au sein du réseau de votre cluster EMR, comme l'instance pour le maître de votre cluster.
Toutes ces opérations sont effectuées côté AWS.
  • Dans le Studio ou sur Talend Administration Center, définissez ce JobServer comme serveur d'exécution de vos Jobs.

Vérifiez que la machine cliente sur laquelle les Jobs Talend sont exécutés peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

Si c'est la première fois que votre cluster EMR est configuré pour s'exécuter avec des Jobs Talend, recherchez Amazon EMR - Getting Started (en anglais) pour vérifier votre configuration afin de permettre à vos Jobs de mieux fonctionner avec EMR.