R2021-03 新增功能 - 7.3

Talend Big Data 产品发布说明

Version
7.3
Language
中文(简体)
Product
Talend Big Data
Talend Big Data Platform
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Content
数据治理
版本说明

Big Data:新功能

功能

描述

产品

通过 Spark 3.0 组件支持 Databricks 7.3 LTS
您现在可以使用 Spark 3.0 在 AWS 和 Azure 上的 Databricks 7.3 LTS 发行版上运行 Spark Batch 和 Spark Streaming 作业,以用于交互式和临时集群。支持以下组件:
  • tAvroInput 和 tAvroOutput
  • tAzureFSConfiguration
  • tFileInputDelimited 和 tFileOutputDelimited
  • tFileInputJSON 和 tFileOutputJSON
  • tFileInputParquet 和 tFileOutputParquet
  • tFileInputXML 和 tFileOutputXML
  • tFixedFlowInput
  • tLogRow
  • tS3Configuration

此功能不再处于技术预览状态。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

CDP Public Cloud Data Hub 在 AWS 上获得支持 您现在可以在 Cloudera Management Console 的 AWS 上配置 CDP Public Cloud Data Hub 实例,以便在 Talend Studio 中的远程 JobServer 上运行作业。以这种方法,您可以根据需要直接选择一个 Data Hub 集群定义,以配置您的集群(例如,用于 AWS 的 Data Engineering,或者用于 AWS 的 Data Discovery and Exploration)。之后,您只需从 Talend Studio 中的该集群导入所有配置文件,以运行作业。

此功能使您能够将云集群的弹性直接应用于 CDP Public Cloud。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

在 Spark Batch 作业中支持使用服务帐户和 OAuth2 访问令牌对 Google 云平台发行版进行身份验证 通过 Dataproc 1.4 版,您现在可以在 Spark Batch 作业中使用服务帐户或 OAuth2 访问令牌进行 Google 云平台的身份验证。这些身份验证方法可在 Spark Batch 作业的 Spark configuration (Spark 配置) 视图中找到。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

更新了 Spark 作业中的 tCollectAndCheck 组件 通过 tCollectAndCheck,您现在可以在 Spark 作业中直接检查数据输入。支持以下输入类型:
  • 文本
  • Parquet
  • MySQL (仅提供英文版)
  • Hive
  • 增量
  • Snowflake
  • Redshift
  • JDBC
  • HBase
对于 Spark Batch 作业,组件现可按以下方式连接:

组件会检查 Spark Batch 作业中的确切行数,以及行值是否正确。

对于 Spark Streaming 作业,组件会在超时后,于作业执行结束时检查数据,如下所述:

组件检查数值是否正确。在 Spark Streaming 作业中,可接受输入为 null,或行非唯一。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

Data Integration:新功能

功能

描述

产品

代码依赖关系管理增强 现在,Talend Studio 支持您创建自定义例程 jar,将多个用户例程打包到一个自定义例程 jar 中,并设置作业和小作业的自定义例程 jar 依赖关系。

通过设置自定义例程 jar 包对作业和小作业的依赖关系,代码对作业和小作业的依赖关系会变得更加明确,这可有助于减少依赖冲突。

注: 默认情况下,迁移自 Talend Studio 任何以前版本的用户例程均保存在新的 Code > Global Routines 节点下。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

tELTOracleMap 增强 tELTOracleMap 组件的 ELT Map 编辑器现在提供新的 Property Settings (属性设置) 对话框,其中包含两个选项:
  • Delimited identifiers (分隔型标识符):选中此复选框后,所有输出列名称都会加双引号,以支持分隔型标识符。
  • Automatic alias (自动别名):选中此复选框后,如果 schema 列的名称与其数据库列的名称不一致,则会在 SQL 查询中为该列自动创建别名。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

tELTMap 的 Git 冲突解决能力增强 Talend Studio 现在支持在作业比较编辑器中对比 tELTMap 冲突。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

Google 驱动器组件:新 Read Timeout (读取超时) 选项 Read Timeout (读取超时) 选项已添加至 Advanced settings (高级设置) 视图。
此选项可用于 tGoogleDriveConnection、tGoogleDriveCopy、tGoogleDriveCreate、tGoogleDriveDelete、tGoogleDriveGet、tGoogleDriveList 和 tGoogleDrivePut。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

支持用于 MongoDB 和 CosmosDB 组件的 Mongo DB 4.4 API 现在可以将 MongoDB 和 CosmosDB 组件连接至 MongoDB 4.4 版。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

标准作业中 MongoDB 和 CosmosDB 组件的性能增强 在标准作业中,MongoDB 和 CosmosDB 组件现可提供以下选项:
  • 对于输入组件,您现在可通过 Specify fields to return (指定返回字段) 选项,定义从数据库返回至文档中的字段集。
  • 对于输出组件,当您想要对数据执行操作时,您现在可以使用 Delete all documents (删除所有文档) 选项,删除集合中的所有文档。

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

新 SingleStore 组件

现已提供以下三个新的 SingleStore 组件。在加载数据至数据库表时,这些组件可提供更好的性能。

  • tSingleStoreBulkExec
  • tSingleStoreOutputBulk
  • tSingleStoreOutputBulkExec

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

将 AWS 预定义权限授权给 S3 资源的新选项

以下组件现在提供了新的选项 Canned Access Control (标准访问控制),用于将 AWS 预定义权限授权给 S3 资源:
  • tS3BucketCreate
  • tS3Copy
  • tS3Put

Talend Big Data

Talend Big Data Platform

Talend Real-Time Big Data Platform

Data Mapper:新功能

功能

描述

产品

EDIFACT 导入程序 您现在可以导入 ZIP 文件格式的 UN/EDIFACT 规格,以创建结构。Talend Data Mapper 支持 D.96A 及之后版本的规格。

Talend Big Data Platform

Talend Real-Time Big Data Platform

不同子元素属性中的 XPath 函数 SimpleLoop 函数中,如果在 Distinct Option (不同选项) 字段中选择了 Element XPath (元素 XPath),则现在可以使用 XPath 函数定义不同值。

Talend Big Data Platform

Talend Real-Time Big Data Platform

ESB:新功能

功能

描述

产品

代码依赖关系管理增强 Talend Studio 现在允许创建自定义 Bean jar 包和自定义例程 jar 包,在自定义 Bean jar 包或例程 jar 包中捆绑多个 Bean 或用户例程,以及设置自定义 Bean jar 包或例程 jar 包对路由和 Routelet 的依赖关系。
通过设置自定义 Bean jar 包或例程 jar 包对路由和 Routelet 的依赖关系,代码依赖关系会更加明确,这可有助于减少依赖关系冲突。

Talend Real-Time Big Data Platform