调解来自不同来源的数据 - 7.1

Talend Data Stewardship 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
数据建模 > 管理和监控
数据建模 > 管理数据模型
数据质量和准备 > 删除重复数据
数据质量和准备 > 处理任务
EnrichPlatform
Talend Data Stewardship
Talend Data Stewardship 提供解决方案之一就是使用 Merging (合并) 活动来匹配、清理和管控数据。但支持的其他活动类型包括 Arbitration (仲裁)Resolution (解析)Grouping (分组)

此用例描述您如何能够使用 Talend Data Stewardship 中的 Merging (合并) 活动,匹配和清理不同来源的数据以便构建主记录。

假设您遇到客户数据中存在数据质量和异常的问题。您发现由于企业中使用的不同 CRM 之间缺乏同步,所以存在重复的潜在客户信息。Merging (合并) 活动使您可以通过仅存储适当的数据来解决重复项。

Merging (合并) 活动中,您必须考虑两方面的问题:
  • 如何识别出会将潜在重复记录分组到一起的匹配组?在 Studio 中使用 Talend 作业即可解决此问题。
  • 如何从数据源中选择最佳特性值,并提供关于用户和系统消耗情况的最准确可靠的主记录?通过 Web 应用程序中的 Merging (合并) 活动即可解决此问题。

为了复制该示例并使用确切的客户端数据,我们假设:

  • 管理员已安装并启动 Talend Data Stewardship。有关更多信息,请参阅《Talend Administration Center 安装指南》。
  • 管理员已在 Talend Administration Center 中创建 Talend Data Stewardship 用户并为其分配了角色。更多详细信息,请参阅创建 Data Stewardship 用户

  • 活动所有者已下载本示例中使用的输入数据和 Talend 作业。在创建 Merging (合并) 活动后,即可使用它们加载任务。

    从本页面左侧面板的 Downloads (下载) 选项卡获取 tds_gettingstarted_source_files.zip 文件。