Big Data:新功能 - 7.3

Talend Data Fabric 发布说明

Version
7.3
Language
中文(简体)
Product
Talend Data Fabric
Content
数据治理
版本说明

Spark 作业设计器增强功能

功能

描述

ADLS Gen2 Azure Data Lake Storage Generation2 现在受以下 Big Data 平台支持:
  • Databricks V5.5 LTS
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
Snowflake 正式支持适用于 Spark 批处理的 Snowflake 组件。它们不再处于技术预览状态。
本地数据集
在 Spark 批处理作业中,对本地 Spark 数据集的支持已添加到更多组件中,以获取固有的性能提升。要从该增强功能中受益,用户必须使用带有以下组件的 Spark V2.0 及更高版本:
  • tFileInputParquet 和 tFileOutputParquet
  • tFileInputDelimited 和 tFileOutputDelimited
  • tFileInputFullRow
  • tFileInputPositional 和 tFileInputRegex
  • tSortRow、tExtractDelimitedFields、tExtractPositionalFields、tExtractRegexFields、tExtractXMLField、tExtractJSONFields、tNormalize、tReplace、tReplicate、tSample、tUnite 和 tSchemaComplianceCheck。
以下组件需要 Spark V2.1 及更高版本,才能支持 Spark 数据集。
  • tAggregateRow
  • tMap 中的左外联接(除了自 Talend Studio V7.2 以来一直支持数据集的 tMap 功能外)。
Delta Lake tDeltaLakeInput 和 tDeltaLakeOutput 组件不再处于技术预览状态。
Apache Spark V2.4 Spark 批处理和 Spark Streaming 作业中的更多 Big Data 平台支持这一新的 Aparch Spark 版本。现在支持 Spark V2.4 的平台包括:
  • Cloudera CDH6.1.1
  • Databricks V5.5
  • Google Cloud Dataproc V1.4
作业状态 利用 Databricks,用户可以配置 Studio 向 Spark 集群查询作业状态的频率。
tS3Configuration 利用 Amazon EMR,用户现在可以应用 S3 桶策略。
tAggregateRow 在 Spark 批处理作业中,已添加 Count (distinct) 函数和样本标准偏差算法函数。
新驱动程序版本
其相关组件中已添加对以下驱动程序版本的支持:
  • Redshift JDBC 驱动程序 V1.23.7.106
  • MySQL 驱动程序 V8.0.18
  • Teradata JDBC 驱动程序 V16.20.00.13
  • JDBC 组件中的 MariaDB JDBC 驱动程序 V2.5.3
  • Snowflake JDBC 驱动程序 3.11.x

提供了新组件

现在提供了以下新组件 : tAzureAdlsGen2Input 和 tAzureAdlsGen2Output.

对 Big Data 平台的支持

功能

描述

Databricks
  • Databricks V5.5 LTS 现在受 Spark 作业支持。
  • 已添加对 Azure Databricks 临时集群的支持。
Hortonworks Data Platform
  • 支持 Hortonworks Data Platform V3.1。
  • Hortonworks Data Platform V3.x 系列现已在“动态发行版”中正式可用。它们不再处于技术预览状态。

Google Cloud Dataproc

  • 支持 Google Cloud Dataproc V1.4
  • 在标准作业中,tGoogleDataprocManage 支持所有区域。
自定义 Hadoop 配置 存储库中定义到 Cloudera 或 Hortonworks 的连接时,用户现在可以指定自定义 JAR 文件,以提供将要使用的 Hadoop 环境的连接参数。

其他组件

功能

描述

Kafka Kafka V2.2.1 现在正式受以下项支持:
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
  • 标准作业中的 Kafka 组件
Google BigQuery
  • 在 tBigQueryBulkExec 中,用户现在可以使用服务帐户或其 OAuth 2.0 用户和密码来删除表。
  • BigQuery 组件现在支持 Google Cloud Client API 1.25.10。
Couchbase
  • tCouchbaseOutput 现在允许用户使用参数执行 N1QL 查询。
  • 支持非 JSON 文档。

CXF

以下组件现在支持 CXF V3.3.4:

  • tDBFSConnection、tDBFSGet、tDBFSPut
  • tHCatalogInput、tHCatalogLoad、tHCatalogOperation、tHCatalogOutput

MongoDB

对 MongoDB V4.2.x 的支持已添加到标准作业中的 MongoDB 组件。