拖放和连接组件 - 7.2

Talend Open Studio for Big Data 入门指南

EnrichVersion
7.2
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Talend Studio
task
数据治理
设计和开发
要使用的 DBFS、Azure 和处理组件在作业工作区中编排,以构成数据转换的完整过程。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 已如创建作业中所述创建了空作业并在工作区中打开。

过程

  1. 在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中为两个 tFileInputDelimited 组件、一个 tMap 组件、两个 tFileOutputDelimited 组件、一个 tDBFSConnection 组件、一个 tDBFSGet 组件和一个 tAzureStoragePut 组件。
    • DBFS 组件连接到您的 Databricks 文件系统 (DBFS),以下载有关影片和导演的文件。
    • 两个 tFileInputDelimited 组件用于将影片数据和导演数据从本地文件系统加载到当前作业的数据流中。

    • tMap 组件用于转换输入数据。

    • tFileOutputDelimited 组件将结果写入本地系统中的给定目录。

    • tAzureStoragePut 组件用于将转换后的数据上传到 Azure Blob 存储容器中。
  2. 双击 tFileInputDelimited 组件以使此标签可编辑,然后输入 movie (影片) 以更改此组件的标签。
  3. 执行相同的操作,将另一个 tFileInputDelimited组件 标记为 director (导演)
  4. 右键单击 tDBFSConnection,然后从显示的上下文菜单中选择 Trigger > On Subjob Ok (触发 > 子作业正常时)
  5. 单击 tDBFSGettDBFSConnection 连接到 tDBFSGet
  6. 重复相同的操作,以始终使用 On Subjob Ok (子作业正常时) 连接,将 tDBFSGet 连接到标记为 movie (影片)tFileInputDelimited 组件,然后将相同的 tFileInputDelimited 组件连接到 tAzureStoragePut
  7. 右键单击标记为 movie (影片)tFileInputDelimited 组件,然后从上下文菜单中选择 Row > Main (行 > 主) 并单击 tMap 以连接这两个组件。这是将影片数据发送到 tMap 的数据流连接,它作为 tMap 的 Main Link(主连接)。
  8. 执行相同的操作,使用 Row > Main (行 > 主) 连接将 director (导演) tFileInputDelimited 组件连接到 tMap。这是导演数据作为查找数据发送到 tMapLookup (查找) 连接。
  9. 执行相同的操作,使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tFileOutputDelimited,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认更改。
  10. 重复这些操作,使用 Row > Main (行 > 主) 连接将 tMap 组件连接到另一个 tFileOutputDelimited 组件,并将其命名为 reject (拒绝)

结果

现在,整个作业在工作区中如下所示: