拖放和连接组件 - 7.1

Talend Open Studio for Big Data 入门指南

EnrichVersion
7.1
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Talend Studio
task
数据治理
设计和开发
要使用的 Pig 组件在作业工作区中编排,以编写 Pig 进程进行数据转换。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 已如创建作业中所述创建了空作业并在工作区中打开。

过程

  1. 在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中,组件为两个 tPigLoad 组件、一个 tPigMap 组件和两个 tPigStoreResult 组件。
    • 两个 tPigLoad 组件分别用于将影片数据和导演数据从 HDFS 加载到当前作业的数据流中。

    • tPigMap 组件用于转换输入数据。

    • tPigStoreResult 组件将结果写入 HDFS 中的给定目录。

  2. 双击其中一个 tPigLoad 组件的标签使此标签可编辑,然后输入 movie 更改此 tPigLoad 的标签。
  3. 执行相同的操作,将另一 tPigLoad 组件标记为 director
  4. 右键单击标记为 movietPigLoad 组件,然后从上下文菜单中选择 Row > Pig combine (行 > Pig 合并) 并单击 tPigMap 将此 tPigLoad 连接到 tPigMap 组件。这是将影片数据发送到 tPigMap 的数据流主连接,它作为 tPigMap 的 Main Link(主连接)。
  5. 执行相同的操作,使用 Row > Pig combine (行 > Pig 组合) 连接将 director tPigLoad 组件连接到 tPigMap。这是导演数据作为查找数据发送到 tPigMapLookup (查找) 连接。
  6. 使用 Row > Pig combine (行 > Pig 组合) 连接将 tPigMap 组件连接到 tPigStoreResult,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认此更改。
  7. 重复这些操作,使用 Row > Pig combine (行 > Pig 组合) 连接将 tPigMap 组件连接到另一个 tPigStoreResult 组件,并将其命名为 reject (拒绝)

结果

现在,整个作业在工作区中如下所示: