要使用的 Pig 组件在作业工作区中编排,以编写 Pig 进程进行数据转换。
过程
-
在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中,组件为两个 tPigLoad 组件、一个 tPigMap 组件和两个 tPigStoreResult 组件。
-
双击其中一个 tPigLoad 组件的标签使此标签可编辑,然后输入 movie 更改此 tPigLoad 的标签。
-
执行相同的操作,将另一 tPigLoad 组件标记为 director。
-
右键单击标记为 movie 的 tPigLoad 组件,然后从上下文菜单中选择 Row > Pig combine (行 > Pig 合并) 并单击 tPigMap 将此 tPigLoad 连接到 tPigMap 组件。这是将影片数据发送到 tPigMap 的数据流主连接,它作为 tPigMap 的 Main Link(主连接)。
-
执行相同的操作,使用 Row > Pig combine (行 > Pig 组合) 连接将 director tPigLoad 组件连接到 tPigMap。这是导演数据作为查找数据发送到 tPigMap 的 Lookup (查找) 连接。
-
使用 Row > Pig combine (行 > Pig 组合) 连接将 tPigMap 组件连接到 tPigStoreResult,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认此更改。
-
重复这些操作,使用 Row > Pig combine (行 > Pig 组合) 连接将 tPigMap 组件连接到另一个 tPigStoreResult 组件,并将其命名为 reject (拒绝)。