Big Data:新功能 - 7.2

Talend Data Fabric 发布说明

EnrichVersion
7.2
EnrichProdName
Talend Data Fabric
task
数据治理

Spark 作业设计器增强功能

功能

描述

Delta Lake 创建了 tDeltaLakeInput 和 tDeltaLakeOutput 以利用此开源存储层将 ACID 事务引入 Apache Spark 上的 Big Data 工作负载。
警告: 这项功能处于技术预览阶段。
Apache Spark V2.4 在本地模式以及使用 Cloudera CDH V6.1 的 Spark Batch 和 Spark Streaming 作业中,支持新的 Aparch Spark 版本。
Databricks
  • Databricks on AWS 支持临时集群。
  • 现在,用户可以通过勾选复选框,确保集群在提交作业期间保持运行。
Snowflake 创建了适用于 Spark Batch 的 Snowflake 组件。
警告: 这项功能处于技术预览阶段。
Elasticsearch 支持 Elasticsearch V5.6.x 和 V6.4.x。
云安全
  • 增加了对 S3 上 SSE KMS 的支持。
  • Apache Spark 作业中现在支持用户名和密码继承功能。
tFileInputDelimited 用户可以通过勾选复选框,以使 Spark 集群能够使用多个执行程序并行读取大型 CSV 文件。

对 Big Data 平台的支持

功能

描述

Cloudera
  • 现在支持 Cloudera CDH V6.1。
  • Cloudera CDH V6.x 系列现已在“动态发行版”中正式可用。它们不再处于技术预览状态
MapR 对 MapR 的支持已更新为 MapR V6.1 (带有 MEP (MapR Ecosystem Pack) V6.1)

其他组件

功能

描述

Google BigQuery
  • 在标准作业中,Google BigQuery 组件现在支持区域位置。
  • 添加了 tBigQuerySQLRow 组件
Couchbase API
  • 已创建新的 tCouchbaseInput 和 tCouchbaseOutput 组件,以更好地反映 Couchbase Java SDK API 的逻辑。
  • 旧版 tCouchbaseInput 和 tCouchbaseOutput 组件已分别重命名为 tCouchbaseDCPInput 和 tCouchbaseDCPOutput,因为它们使用数据库更改协议(Database Change Protocol)将变动的数据以流式传输到存储桶(bucket)中。

持续集成和部署

功能

描述

持续集成和部署:轻量级 CommandLine,轻量级安装

不再需要安装 Talend CommandLine,因为包含应用程序以及 Talend Maven 插件的存储库现在可以托管在本地服务器上,并在构建过程中自动安装。

为提高您的性能和资源利用率,Talend CommandLine 的大小已经减半。