拖放和连接 Spark 组件 - 7.2

Talend Big Data Platform 入门指南

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
task
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
您在作业工作区中编排 Spark Batch 组件,以设计在 Apache Spark Batch 框架中运行的数据转换流程。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 已如创建 Spark Batch 作业中所述创建了空作业并在工作区中打开。

过程

  1. 在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中为两个 tFileInputDelimited 组件、一个 tMap 组件、两个 tFileOutputParquet 组件和一个 tAzureFSConfiguration 组件。
    • 两个 tFileInputDelimited 组件分别用于将影片数据和导演数据从 Databricks 大数据平台的 DBFS 文件系统加载到当前作业的数据流中。

    • tMap 组件用于转换输入数据。

    • tFileOutputParquet 组件将结果写入 Azure Data Lake Storage 文件系统的目录中。

    • tAzureFSConfiguration 组件提供了连接到 Azure Data Lake Storage 文件系统所需的必要信息。
  2. 双击两个 tFileInputDelimited 组件中的其中一个,以使此标签可编辑,然后输入 movie (影片) 以更改此组件的标签。
  3. 执行相同的操作,将另一个 tFileInputDelimited 标记为 director (导演)
  4. 右键单击标记为 movie (影片)tFileInputDelimited 组件,然后从上下文菜单中选择 Row > Main (行 > 主) 并单击 tMap 将其连接到 tMap。这是将影片数据发送到 tMap 的数据流连接,它作为 tMap 的 Main Link(主连接)。
  5. 执行相同的操作,使用 Row > Main (行 > 主) 连接将 director (导演) tFileInputDelimited 组件连接到 tMap。这是导演数据作为查找数据发送到 tMapLookup (查找) 连接。
  6. 使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tFileOutputParquet,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认更改。
  7. 重复这些操作,使用 Row > Main (行 > 主) 连接将 tMap 组件连接到另一个 tFileOutputParquet 组件,并将其命名为 reject (拒绝)

结果

在工作区中,整个作业如下所示: