配置数据转换 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio

tMap 组件配置为连接影片数据和导演数据。

将影片数据和导演数据加载到作业后,您需要配置 tMap 组件以连接它们来产生您所期望的输出。

过程

  1. 双击 tMap 打开其 Map editor (Map 编辑器) 视图。
  2. movieID 列、title (标题) 列、releaseYear 列和 url 列从左侧拖放到每个输出流表上。

    Map Editor (Map 编辑器) 的输入侧 (左侧),每个表表示一个输入流,上表表示主流,下表表示查找流。

    在输出侧 (右侧),这两个表表示您将 tMap 连接到 拖放和连接 MapReduce 组件 中的 tHDFSOutputtFileOutputDelimited 时命名为 out1reject (拒绝) 的输出流。

  3. 在输入侧,将 directorID 列从主流表拖放到查找流表中 ID 行的 Expr.key 列。这样一来,就定义了主流和查找流之间的连接键。
  4. directorID 列从主流表拖放到输出侧的 reject (拒绝) 表,并将 Name (名称) 列从查找流表拖放到 out1 表。

    从编辑器下半部分的 Schema editor (Schema 编辑器) 视图中,您可以看到两侧的 schema 均已自动完成。

  5. 在查找流表上,单击 按钮显示连接操作的设置面板。
  6. Join model (连接模型) 行中,单击 Value (值) 列,然后单击显示的 [...] 按钮。

    将显示 Options (选项) 窗口。

  7. 选择 Inner join (内连接),以便仅输出包含主流和查找流中均存在的连接键的记录。
  8. reject (拒绝) 输出流表上,单击 按钮打开设置面板。
  9. Catch Lookup inner join reject (获取查找内连接拒绝) 行中,选择 true 以输出由内连接拒绝的在输入侧上执行的记录。
  10. 单击 Apply (应用),然后单击 OK (确定) 确认这些更改并接受弹出对话框提示的传播。

结果

现在,转换即会配置为用导演名称填写影片数据,并将不包含任何导演数据的影片记录写入单独的数据流。