拖放和连接 MapReduce 组件 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
您在作业工作区中编排 MapReduce 组件,以设计在 MapReduce 框架中运行的数据转换流程。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 已如创建 MapReduce 作业中所述创建了空作业并在工作区中打开。

过程

  1. 在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中为两个 tHDFSInput 组件、一个 tFileInputDelimited 组件、一个 tMap 组件、一个 tHDFSOutput 组件和一个 tFileOutputDelimited 组件。
    • tHDFSInputtFileInputDelimited 组件分别用于将影片数据和导演数据从 HDFS 加载到当前作业的数据流中。

    • tMap 组件用于转换输入数据。

    • tHDFSOuputtFileOutputDelimited 组件将结果写入 HDFS 中的给定目录。

  2. 双击 tHDFSInput 组件以使此标签可编辑,然后输入 movie 以更改此组件的标签。
  3. 执行相同的操作,将 tFileInputDelimited 标记为 director
  4. 右键单击标记为 movietHDFSInput 组件,然后从上下文菜单中选择 Row > Main (行 > 主) 并单击 tMap 将其连接到 tMap。这是将影片数据发送到 tMap 的数据流连接,它作为 tMap 的 Main Link(主连接)。
  5. 执行相同的操作,使用 Row > Main (行 > 主) 连接将 director tFileInputDelimited 组件连接到 tMap。这是导演数据作为查找数据发送到 tMapLookup (查找) 连接。
  6. 使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tHDFSOutput,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认更改。
  7. 重复这些操作,使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tFileOutputDelimited 组件,并将其命名为 reject (拒绝)

结果

在工作区中,整个作业如下所示: