EMRに書き込み、暗号化するデータのフローをデザインする - 7.3

Amazon EMR distribution

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Amazon EMR
コンポーネントをリンクしてデータフローを構築します。

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfiguration (ラベルemr_hdfs)、tS3ConfigurationtFixedFlowInputtAggregateRowtFileOutputParquetです。
    tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。現実のケースでは、tFixedFlowInputの代わりに、使われるデータ形式またはソースシステムに固有の入力コンポーネントを使います。
  3. [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputtAggregateRowtFileOutputParquetを接続します。
  4. tHDFSConfigurationコンポーネントとtS3Configurationコンポーネントは接続しないでおきます。