Big Data:新功能 - 7.1

Talend Data Fabric 版本说明

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
数据治理

Spark 作业设计器增强功能

功能

描述

Spark 版本 Spark 2.3 不仅支持本地模式,也可以与 EMR 5.15 (以及 CDH 6.0 和 HDP 3.0) 一起使用,作为技术预览。
Kerberos 安全功能

Talend 集成了 EMR 5.15,现在支持在 EMR 上使用 Kerberos

tAzureFSConfiguration 增强功能

支持 Databricks 以及此组件中的 Azure Data Lake Storage 和 Azure Blob Storage。

Spark Codegen 增强功能 这些增强功能为 Apache Spark 准备 Talend 作业,以使用 Spark 数据集。
Schema 合规性 tSchemaComplianceCheck 已创建。
时间戳粒度

用户可输出日期类型数据中包含的日期、小时、分钟和秒。

对 Big Data 平台的支持

功能

描述

Cloud Big Data Platform

已增加对以下平台的支持:

  • Databricks:
    • Spark 作业中支持 Azure Databricks 和 Databricks on AWS。
    • DBFS 组件已创建。
    • Spark 作业支持 Databricks。
  • Qubole:
    • 对此平台的支持已添加到 Hive 和 Pig 组件中。
    • 对此发行版的支持已添加到 Hive 组件、Pig 组件和 Spark 作业中。

上述所有变化共同有助于通过 Serverless Big Data 带来投资回报,并通过将 Spark 用作云中的服务降低处理成本。它们可实现数据管理的暂时使用,通过弹性处理带来更多灵活性,并为 Spark 计算实现按使用支付。

对 Hadoop 发行版的升级支持
  • Hortonworks Data Platform V2.6.0.3-8
  • EMR 5.15
  • MapR 6.0.1 with MEP 5.0
动态 Hadoop 发行版

只需单击几下,即可添加 Talend Studio 发布时未发布的 Cloudera 或 Hortonworks 版本,实现前所未有的敏捷性和灵活性。

HDP 3.x 和 CDH 6.x 的动态发行版在此版本的技术预览中。

其他组件

功能

描述

Kafka 组件

Kafka 组件支持 Kafka V1.1.0 执行标准作业。

Sqoop 和 Hcatalog tSqoopExport 现在可以从 Hcatalog 读取 schema。
Hive 元存储 用户可以用 Hive 连接元数据向导或Spark 作业中的 tHiveConfiguration 组件设置 HA (高可用性) Hive 元数据。
HDFS HDFS 组件现在支持 WebHDFS 模式和 ADLS 模式。
Google BigQuery

支持 Google 服务帐户模式,以对 Google BigQuery 进行身份验证。

MapR OJAI

tMapROjaiInput 组件已创建。

MarkLogic

支持 Marklogic V9.0.5。

连续部署

功能

描述

连续部署Docker 支持

您现在可以配置持续集成服务器,将 Talend 工程的构件部署到 Docker 注册表。