-
Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
Spark Streamingジョブの作成方法の詳細は、 Talend Open Studio for Big Data入門ガイド をご覧ください。
-
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfiguration、tMongoDBConfiguration、tFixedFlowInput、tMongoDBOutput、tMongoDBLookupInput、tMapおよびtLogRowになります。
tFixedFlowInputコンポーネントは、ムービーに関するデータをデータフローにロードするために使用されます。現実のケースではtFileInputDelimitedなどの他のコンポーネントを代わりに使用して転送するデータを準備する、より洗練されたプロセスを設計できます。
-
tFixedFlowInputを[Row > Main] (行>メイン)リンクを使って、tMapに接続します。
このようにして、tMapへのメインフローが作成されます。映画情報はこのフローを介して送信されます。
-
tMongoDBLookupInputを[Row > Main] (行>メイン)リンクを使って、tMapに接続します。
このようにして、tMapへのルックアップフローが作成されます。映画監督の情報は、このフローを介して送信されます。
-
tMongoDBOutputを[Row > Main] (行>メイン)リンクを使って、tMapに接続します。たとえば、out1という名前を付けます。
-
同じことを行って tMapをtLogRowに接続し、この接続に名前を付けて[reject] (拒否)します。
-
tHDFSConfigurationおよびtMongoDBConfigurationは接続しないでおきます。