コンポーネントをリンクしてデータフローを構築します。
手順
- Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
-
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfiguration (ラベルemr_hdfs)、tS3Configuration、tFixedFlowInput、tAggregateRow、tFileOutputParquetです。
tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。現実のケースでは、tFixedFlowInputの代わりに、使われるデータ形式またはソースシステムに固有の入力コンポーネントを使います。
- [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInput、tAggregateRow、tFileOutputParquetを接続します。
- tHDFSConfigurationコンポーネントとtS3Configurationコンポーネントは接続しないでおきます。