R2021-08 新增功能 - 7.3

Talend Data Fabric 发布说明

Version
7.3
Language
中文(简体)
Product
Talend Data Fabric
Content
数据治理
版本说明

Big Data:新功能

功能

描述

Spark 3.0 下支持 Azure Synapse 发行版 (技术预览)

仅在 YARN 集群模式下使用 Spark 3.0 时,您现在可以使用 Azure Synapse Analytics 与 Apache Spark 池协同作为一个新的发行版用于您的 Spark Batch 和 Spark Streaming 作业。您可以在您的 Spark 作业的 Spark Configuration (Spark 配置) 页面对其进行配置。更多信息请参见 Defining the Azure Synapse Analytics connection paramaters (英文版)。

您可以借助 Azure Synapse Analytics 的这种分析引擎处理您的数据。通过 Apache Spark 池,您可以实现各种计算能力 (比如计算速度和效率) 并兼容 ADLS Gen2 存储。

重要: 由于只是技术预览,因此不适合生产环境。
tMap join 条件的高级表达式
在使用数据集 API 的 Spark Batch 作业中,您现在可以在 tMap 组件的 Map Editor (映射编辑器) 的 Filter 表达式区域输入一个高级表达式对 join 条件进行操作。通过此功能,您可以用下述表达式对 join 条件产生的数据进行筛选:
  • 含有 <, >, <=, >=== 操作符的简单表达式
  • 通过 ||&& 操作符组合的复杂表达式
例如,您可以使用一个复杂表达式对数据进行筛选:

Data Integration:新功能

功能

描述

批量删除多个工程项目的旧版本

工程设置 对话框中的通用 > 版本管理节点下新增了一个 清理 页面,通过此页面您可以:

  • 删除一个或多个工程项目的所有旧版本,仅保留最新版本
  • 删除多个工程项目的低于指定版本的所有旧版本
警告: 在删除作业、小作业、路由或小路由的旧版本时,不会进行依赖关系检查。建议您在一个分支上删除旧版本并对清理结果进行验证。

tCouchbaseInput: N1QL for Analytics 语句的支持

tCouchbaseInput 组件的 查询类型 下拉列表新增了一个 N1QL for Analytics 选项。通过此选项您可以使用 N1QL for Analytics 语句查询半结构化的数据。

tSQSOutput: 获取并向后续组件传递消息 ID

tSQSOutput 组件现在可以获取收到的消息的 ID 并将消息 ID 传递到后续的组件。此功能是通过在输出 schema 中添加 MessageID 列实现的。当 Use batch mode (使用批量模式) 选项未选中时,此选项可用。

tAzureStoragePut:+ 字符的使用

tAzureStoragePut 组件新增了 Allow to escape the '+' sign in filemask (允许转义文件名中的 + 字符) 选项,当选中此选项后,Files 输入框里输入的 + 字符将会作为普通字符处理。如未选中此选项,+ 字符将会被识别为正则表达式的操作符。

tSAPTableInput: NUMC 数据映射为字串

tSAPTableInput 组件新增一个 Read NUMC data as string in the dynamic column (动态列中的 NUMC 数据作为字串读取) 选项, 当此选项选中时,动态列中的 NUMC 类型的数据将作为字串读取。此选项未选中时,NUMC 类型的数据作为整型读取。

MongoDB 组件: 使用 MongoDB 4.4.x 或更新版本时支持 SCRAM-SHA-256 SASL 认证机制

当使用 MongoDB 4.4.x 或更新版本时,MongoDB 组件现已支持 SCRAM-SHA-256 SASL 身份认证机制 。更多信息请参见 身份认证机制

指定要使用的 SAP 连接

tSAPTableInput 和 tELTSAPMap 组件新增了一个 Connection id (连接 ID) 输入框,通过此输入框您可以指定需要使用的 SAP 连接的 ID。SAP 连接 ID 即 SAP 连接配置文件的文件名。

使用此功能要求您安装 SAP RFC 服务器补丁 Patch_20210820_TDI-45536_v1-7.3.1。安装此补丁后您可以通过 SAP RFC 服务器创建多条 SAP 连接。关于配置 SAP RFC 服务器及 SAP 连接的更多信息,请参见 Configuring the RFC server

tSAPDataSourceReceiver 及 tSAPIDocReceiver: 支持处理伙伴主机信息

tSAPDataSourceReceiver 和 tSAPIDocReceiver 组件现已支持处理伙伴主机信息。此信息标识收到的消息来自哪个 SAP 连接。

  • tSAPDataSourceReceiver 组件的 schema 新增了一个预定义的列,列名为 partnerHost
  • tSAPIDocReceiver 组件将向其抽取的消息的头部插入伙伴主机信息。

使用此功能要求您安装 SAP RFC 服务器补丁 Patch_20210820_TDI-45536_v1-7.3.1。安装此补丁后您可以通过 SAP RFC 服务器创建多条 SAP 连接。关于配置 SAP RFC 服务器及 SAP 连接的更多信息,请参见 Configuring the RFC server

新组件

本次发布提供了以下新组件: tFileInputParquet 和 tFileOutputParquet。