R2020-08 新增功能 - 7.3

Talend Master Data Management 产品发布说明

EnrichVersion
7.3
EnrichProdName
Talend MDM Platform
task
Release Notes
数据治理

R2020-08 Studio 每月发布包含以下新增功能。

Big Data:新功能

功能

描述

产品

CDH 6.x 的轻量级依赖关系
在 CDH 6.x 发行版上运行作业时,可以在 Run (运行) 视图的 Spark configuration (Spark 配置) 选项卡中选择 Use lightweight dependencies (使用轻量级依赖关系) 复选框,减少启动作业所花费的时间。它将库的数量减少到仅 Talend 库。这可以防止有关依赖性的问题,例如缺少签名、错误的 JAR 版本或缺少 JAR。通过该选项,您可以勾选 Use custom classpath (使用自定义类路径) 复选框,然后在正则表达式语法中输入要使用的 JAR 并以逗号分隔,来使用另一个不同于 Cloudera 默认设置的类路径。
为输出组件自定义 schema 中的精度 现在,当您更新以下组件的输出 schema 时,可以选择与 BigDecimal 类型的标准的不同的精度:
  • tDeltaLakeOutput
  • tFileOutputDelimited
  • tFileOutputParquet
  • tHiveOutput
tS3Configuration:在 EMRFS 中设置 DynamoDB 表的名称 使用 EMRFS 一致视图选项时,您可以输入要使用的元数据 DynamoDB 表的名称。
tDeltaLakeInput 和 tDeltaLakeOutput:可用于存储数据的新路径 您可以指定到另一个与 DBFS (ADLS Gen2 或 S3) 不同的文件系统的外部路径来存储数据。
tDeltaLakeOutput:Action (操作) 属性中提供新的操作 您可以删除一个表,使该表删除和重新创建。您也可以截断表,从而在保留 schema 的同时删除数据。
tDeltaLakeOutput:Basic settings (基础设置) 视图提供了新的优化属性 您可以在 Databricks 上优化 Delta Lake 数据的布局。
将 Hadoop 配置文件与 Spark Batch 和 Spark Streaming 作业一起使用 您可以使用配置 JAR 文件将 Spark Batch 和 Spark Streaming 作业连接到存储库中的 Hadoop 集群。您可以在作业的 Spark 配置或 Hadoop 集群配置中指定此文件的路径。此选项可用于非云发行版上的 Yarn 群集和 Yarn 客户端。您还可以选择上下文化此连接参数,以便根据运行作业的环境自动连接到正确的集群。

支持 EMR 5.23 或更高版本的高可用性

使用 5.23 或更高版本的 Amazon EMR 发行版运行 Talend 作业时,可以实现高可用性。现在,您的集群中可以有多个主节点。

Data Integration:新功能

功能

描述

产品

tDataprepRun 增强 现在,当使用动态 schema 创建新的准备时,tDataprepRun 组件会显示一条错误消息。

Talend MDM Platform

tELTMap 增强 现在,在 tELTMap 组件的 ELT Map 编辑器中,您可以在新的弹出对话框中按 Ctrl + 空格,为输出列输入多行表达式,并访问包括输入列、输出列和上下文变量的建议。

Talend MDM Platform

POM 生成增强 有新选项 Exclude deleted items (排除删除项目) 可用于生成 Maven 构建的 POM 文件。选择此选项后,删除项目的模块将从当前工程的 POM 文件中排除,并且不会生成删除测试用例的源。
注: 您需要重新同步 POM 文件以应用此选项的新设置。

Talend MDM Platform

Talend 类型映射增强 现在,您可以在 Talend 类型映射文件中为每种日期类型设置默认模式。在从表中获取或猜测 schema 时这将能够自动设置日期类型列的日期格式。

Talend MDM Platform

tSSH 库升级

Ganymed 现在已弃用,组件现在支持新的库:Apache mina-sshd。

Talend MDM Platform

tSalesforceInput:提供新的查询模式

tSalesforceInput 组件提供 BulkV2 查询模式,使您可以查询更大量的数据。该组件还为 BulkV2 模式提供了 Split query results into small sets (将查询结果拆分为小组) 选项,使您可以将查询结果拆分为特定大小的组。

Talend MDM Platform

使用 schema 中定义的日期格式格式化日期

tSnowflakeOutput 和 tSnowflakeOutputBulkExec 组件提供了 Use schema date pattern (使用 schema 日期格式) 选项,允许您使用 schema 中定义的日期格式来格式化日期。

Talend MDM Platform

tSnowflakeInput:选项被重命名和优化

Allow snowflake to convert columns and tables to uppercase (允许 Snowflake 将列和表转换为大写字母) 选项更改为 Use unquoted object identifiers (使用未引用的对象标识符),功能亦得到改进。

Talend MDM Platform

tFTPRename:表列名称修复

tFTPRename 组件在 Files (文件) 字段中仅支持文件名,列名 Filemask (文件掩码) 更改为 Filename (文件名)

Talend MDM Platform

Data Quality:新功能

功能

描述

产品

电话号码标准化 现在可以验证给定区域的电话号码:
  • tStandardizePhoneNumber 组件中添加新的列:isValidPhoneNumberForRegion
  • 新的电话号码统计指标:Valid Phone Number for Region Count (区域计数的有效电话号码)

Google libphonenumber 库也已更新为最新版本。

Talend MDM Platform

ESB:新功能

功能

描述

产品

Microservice

Camel 指标现在在 Microservices 中披露给 Prometheus,以监视路由的执行、JVM 内存、CPU 消耗等情况。

Talend MDM Platform

Continuous Integration:新功能

功能

描述

产品

POM 文件生成 - 新参数 mvn org.talend.ci:builder-maven-plugin:7.3.3:generateAllPoms 命令允许您在构建工程之前重新生成工程的所有 .pom 文件。如果要在迁移之前测试产品的新版本,此功能也很有用。

Talend MDM Platform

自定义脚本 - 新参数 mvn org.talend.ci:builder-maven-plugin:7.3.3:executeScript 命令允许您使用 CommandLine 命令编写自己的脚本并在构建时执行。

Talend MDM Platform

Camel 指标向 Prometheus 披露 - 新参数 现在,您可以在将 ESB 构件发布到 Docker 时使用 -Dstudio.prometheus.metrics=true 参数,以将 Camel 指标披露给 Prometheus 并获取有关已部署路由的更多详细信息。

Talend MDM Platform

调试模式 - 新参数 现在,您可以使用 -Dstudio.talendDebug=true 参数来获取额外日志。尝试与支持团队一起调试构建问题时,此参数可能很有用。

Talend MDM Platform

构建改进 根据您的 Talend Studio 工程设置,现在可以从 Continuous Integration 构建中排除回收站中的所有工程条目。

Talend MDM Platform