サーバー側KMS暗号化データをEMRに書き込む - 7.3

Amazon EMR distribution

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Amazon EMR

AWS SSE-KMS暗号化(保存時の暗号化)サービスが有効で、EMRクラスターのS3Aシステム上のデータを保護するように[Default encryption] (デフォルトの暗号化)を設定する場合は、そのS3Aシステムにデータを書き込む時にtS3ConfigurationでSSE-KMSオプションを選択します。

このシナリオで使うサンプルデータは、人々が1日以内にパリの通りで発生したと報告したさまざまなタイプのインシデントに関するものです。
1;226 rue marcadet, 75018 Paris;abandoned object;garbage on the street
2;2 rue marcadet, 75018 Paris;shift and damage;direction sign damaged
3;45 boulevard de la villette, 75010 Paris; abandoned object; suspicious package
4;10 rue emile lepeu, 75011 Paris;graffiti and improper poster;graffiti
5;27 avenue emile zola, 75015 Paris;shift and damage;deformed road
サンプルデータはあくまでも例示を目的とするものです。

ジョブは、各インシデントタイプの出現を計算します。

これは、EMRに暗号化されたデータを書き込むように設計されたジョブのイメージです。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

前提条件:
  • 使用するS3システムはS3Aです。
  • AWS上のSSE-KMS暗号化サービスが[Default encryption] (デフォルト暗号化)機能で有効化され、顧客管理のCMKが指定されていること。
  • 使うEMRクラスターがSSE-KMSで作成され、EMR_EC2_DefaultRoleロールが上記CMKに追加されていること。
  • EMRクラスターの管理者が、ジョブで使っているAWSアカウントに適切な権限とアクセス許可を付与していること。
  • EMRクラスターが適切に設定され、実行されていること。
  • Talend Jobserverが、クラスターのマスターのインスタンスなど、EMRクラスターのネットワーク内のインスタンスにデプロイされていること。
これらの操作はすべてAWS側で行われます。
  • Studioまたは Talend Administration Centerで 、このJobserverをジョブの実行サーバーとして定義します。

Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

EMRクラスターがTalendジョブで実行されるように設定されたのが初めての場合は、Amazon EMR-Getting StartedをTalend Help Center (https://help.talend.com)で検索して、ジョブがEMR上でより効率的に機能するように設定を確認します。