拖放和连接 Spark 组件 - 8.0

Talend Data Fabric 入门指南

Version
8.0
Language
中文(简体)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
您在作业工作区中编排 Spark Batch 组件,以设计在 Apache Spark Batch 框架中运行的数据转换流程。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 已如创建 Spark Batch 作业中所述创建了空作业并在工作区中打开。

步骤

  1. 在作业中,输入要使用的组件的名称,然后从显示的列表中选择此组件。在本场景中为两个 tFileInputDelimited 组件、一个 tMap 组件、两个 tFileOutputParquet 组件和一个 tAzureFSConfiguration 组件。
    • 两个 tFileInputDelimited 组件分别用于将影片数据和导演数据从 Databricks 大数据平台的 DBFS 文件系统加载到当前作业的数据流中。

    • tMap 组件用于转换输入数据。

    • tFileOutputParquet 组件将结果写入 Azure Data Lake Storage 文件系统的目录中。

    • tAzureFSConfiguration 组件提供了连接到 Azure Data Lake Storage 文件系统所需的必要信息。
  2. 双击两个 tFileInputDelimited 组件中的其中一个,以使此标签可编辑,然后输入 movie (影片) 以更改此组件的标签。
  3. 执行相同的操作,将另一个 tFileInputDelimited 标记为 director (导演)
  4. 右键单击标记为 movie (影片)tFileInputDelimited 组件,然后从上下文菜单中选择 Row > Main (行 > 主) 并单击 tMap 将其连接到 tMap。这是将影片数据发送到 tMap 的数据流连接,它作为 tMap 的 Main Link(主连接)。
  5. 执行相同的操作,使用 Row > Main (行 > 主) 连接将 director (导演) tFileInputDelimited 组件连接到 tMap。这是导演数据作为查找数据发送到 tMapLookup (查找) 连接。
  6. 使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tFileOutputParquet,然后在弹出向导中将此连接命名为 out1,并单击 OK (确定) 以确认更改。
  7. 重复这些操作,使用 Row > Main (行 > 主) 连接将 tMap 组件连接到另一个 tFileOutputParquet 组件,并将其命名为 reject (拒绝)

结果

在工作区中,整个作业如下所示: