Big Data:新功能
功能 |
描述 |
产品 |
---|---|---|
CDH 6.x 的轻量级依赖关系 |
在 CDH 6.x 发行版上运行作业时,可以在 Run (运行) 视图的 Spark configuration (Spark 配置) 选项卡中选择 Use lightweight dependencies (使用轻量级依赖关系) 复选框,减少启动作业所花费的时间。它将库的数量减少到仅 Talend 库。这可以防止有关依赖性的问题,例如缺少签名、错误的 JAR 版本或缺少 JAR。通过该选项,您可以勾选 Use custom classpath (使用自定义类路径) 复选框,然后在正则表达式语法中输入要使用的 JAR 并以逗号分隔,来使用另一个不同于 Cloudera 默认设置的类路径。
|
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
为输出组件自定义 schema 中的精度 | 现在,当您更新以下组件的输出 schema 时,可以选择与 BigDecimal 类型的标准的不同的精度:
|
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tS3Configuration:在 EMRFS 中设置 DynamoDB 表的名称 | 使用 EMRFS 一致视图选项时,您可以输入要使用的元数据 DynamoDB 表的名称。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tDeltaLakeInput 和 tDeltaLakeOutput:可用于存储数据的新路径 | 您可以指定到另一个与 DBFS (ADLS Gen2 或 S3) 不同的文件系统的外部路径来存储数据。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tDeltaLakeOutput:Action (操作) 属性中提供新的操作 | 您可以删除一个表,使该表删除和重新创建。您也可以截断表,从而在保留 schema 的同时删除数据。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tDeltaLakeOutput:Basic settings (基础设置) 视图提供了新的优化属性 | 您可以在 Databricks 上优化 Delta Lake 数据的布局。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
将 Hadoop 配置文件与 Spark Batch 和 Spark Streaming 作业一起使用 | 您可以使用配置 JAR 文件将 Spark Batch 和 Spark Streaming 作业连接到存储库中的 Hadoop 集群。您可以在作业的 Spark 配置或 Hadoop 集群配置中指定此文件的路径。此选项可用于非云发行版上的 Yarn 群集和 Yarn 客户端。您还可以选择上下文化此连接参数,以便根据运行作业的环境自动连接到正确的集群。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
支持 EMR 5.23 或更高版本的高可用性 |
使用 5.23 或更高版本的 Amazon EMR 发行版运行 Talend 作业时,可以实现高可用性。现在,您的集群中可以有多个主节点。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
Data Integration:新功能
功能 |
描述 |
产品 |
---|---|---|
tDataprepRun 增强 | 现在,当使用动态 schema 创建新的准备时,tDataprepRun 组件会显示一条错误消息。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tELTMap 增强 | 现在,在 tELTMap 组件的 ELT Map 编辑器中,您可以在新的弹出对话框中按 Ctrl + 空格,为输出列输入多行表达式,并访问包括输入列、输出列和上下文变量的建议。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
POM 生成增强 | 有新选项 Exclude deleted items (排除删除项目) 可用于生成 Maven 构建的 POM 文件。选择此选项后,删除项目的模块将从当前工程的 POM 文件中排除,并且不会生成删除测试用例的源。 注: 您需要重新同步 POM 文件以应用此选项的新设置。
|
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
Talend 类型映射增强 | 现在,您可以在 Talend 类型映射文件中为每种日期类型设置默认模式。在从表中获取或猜测 schema 时这将能够自动设置日期类型列的日期格式。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tSSH 库升级 |
Ganymed 现在已弃用,组件现在支持新的库:Apache mina-sshd。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tSalesforceInput:提供新的查询模式 |
tSalesforceInput 组件提供 BulkV2 查询模式,使您可以查询更大量的数据。该组件还为 BulkV2 模式提供了 Split query results into small sets (将查询结果拆分为小组) 选项,使您可以将查询结果拆分为特定大小的组。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
使用 schema 中定义的日期格式格式化日期 |
tSnowflakeOutput 和 tSnowflakeOutputBulkExec 组件提供了 Use schema date pattern (使用 schema 日期格式) 选项,允许您使用 schema 中定义的日期格式来格式化日期。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tSnowflakeInput:选项被重命名和优化 |
Allow snowflake to convert columns and tables to uppercase (允许 Snowflake 将列和表转换为大写字母) 选项更改为 Use unquoted object identifiers (使用未引用的对象标识符),功能亦得到改进。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tFTPRename:表列名称修复 |
tFTPRename 组件在 Files (文件) 字段中仅支持文件名,列名 Filemask (文件掩码) 更改为 Filename (文件名)。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tS3Connection:支持路径样式访问 |
tS3Connection 组件提供对路径样式访问的支持。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
tMongoDBOutput:对数据字段的操作可自定义 |
对于更新或插入 (带设置) 动作,您可以指定是否可以更新/插入字段。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
Data Quality:新功能
功能 |
描述 |
产品 |
---|---|---|
电话号码标准化 | 现在可以验证给定区域的电话号码:
Google libphonenumber 库也已更新为最新版本。 |
Talend Big Data Platform Talend Real-Time Big Data Platform |
ESB:新功能
功能 |
描述 |
产品 |
---|---|---|
Microservice |
Camel 指标现在在 Microservices 中披露给 Prometheus,以监视路由的执行、JVM 内存、CPU 消耗等情况。 |
Talend Real-Time Big Data Platform |
Continuous Integration:新功能
功能 |
描述 |
产品 |
---|---|---|
POM 文件生成 - 新参数 | mvn org.talend.ci:builder-maven-plugin:7.3.3:generateAllPoms 命令允许您在构建工程之前重新生成工程的所有 .pom 文件。如果要在迁移之前测试产品的新版本,此功能也很有用。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
自定义脚本 - 新参数 | mvn org.talend.ci:builder-maven-plugin:7.3.3:executeScript 命令允许您使用 CommandLine 命令编写自己的脚本并在构建时执行。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
Camel 指标向 Prometheus 披露 - 新参数 | 现在,您可以在将 ESB 构件发布到 Docker 时使用 -Dstudio.prometheus.metrics=true 参数,以将 Camel 指标披露给 Prometheus 并获取有关已部署路由的更多详细信息。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
调试模式 - 新参数 | 现在,您可以使用 -Dstudio.talendDebug=true 参数来获取额外日志。尝试与支持团队一起调试构建问题时,此参数可能很有用。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |
构建改进 | 根据您的 Talend Studio 工程设置,现在可以从 Continuous Integration 构建中排除回收站中的所有工程条目。 |
Talend Big Data Talend Big Data Platform Talend Real-Time Big Data Platform |