tMap 组件配置为连接影片数据和导演数据。
将影片数据和导演数据加载到作业后,您需要配置 tMap 组件以联接它们来产生您所期望的输出。
步骤
-
双击 tMap 打开其 Map Editor (Map 编辑器) 视图。
-
将 movieID 列、title (标题) 列、releaseYear 列和 url 列从左侧拖放到每个输出流表上。
在 Map Editor (Map 编辑器) 的输入侧 (左侧),每个表表示一个输入流,上表表示主流,下表表示查找流。
如果您将 tMap 连接到 拖放和连接 Spark 组件 中的 tFileOutputParquet,输出侧 (右侧) 的两个表表示命名为 out1 和 reject (拒绝) 的输出流。
- 在输入侧,将 directorID 列从主流表拖放到查找流表中 ID 行的 Expr.key 列。这样一来,就定义了主流和查找流之间的连接键。
-
将 directorID 列从主流表拖放到输出侧的 reject (拒绝) 表,并将 Name (名称) 列从查找流表拖放到 out1 表。
从编辑器下半部分的 Schema editor (Schema 编辑器) 视图中,您可以看到两侧的 schema 均已自动完成。
-
在查找流表上,单击
按钮显示连接操作的设置面板。
-
在 Join model (连接模型) 行中,单击 Value (值) 列,然后单击显示的 [...] 按钮。
将显示 Options (选项) 窗口。
- 选择 Inner join (内连接),以便仅输出包含主流和查找流中均存在的连接键的记录。
- 在 Match Model (匹配模型) 行中,重复这些操作以选择 All matches (所有匹配项)。
-
在 reject (拒绝) 输出流表上,单击
按钮打开设置面板。
- 在 Catch Lookup inner join reject (获取查找内连接拒绝) 行中,选择 true 以输出由内连接拒绝的在输入侧上执行的记录。
- 单击 Apply (应用),然后单击 OK (确定) 确认这些更改并接受弹出对话框提示的传播。
结果
现在,转换即会配置为用导演名称填写影片数据,并将不包含任何导演数据的影片记录写入单独的数据流。