调解来自不同来源的数据 - 7.3

Talend Data Stewardship 入门指南

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
数据建模 > 管理和监控
数据建模 > 管理数据模型
数据质量和准备 > 删除重复数据
数据质量和准备 > 处理任务
EnrichPlatform
Talend Data Stewardship
Talend Data Stewardship 提供的解决方案之一就是使用 Merging (合并) 活动来匹配、清理和管控数据。

此用例描述了如何匹配和清理不同来源的数据以便构建主记录。

假设您遇到客户数据中存在数据质量和异常的问题。您发现由于企业中使用的不同 CRM 之间缺乏同步,所以存在重复的潜在客户信息。Merging (合并) 活动使您可以通过仅存储适当的数据来解决重复项。

但您必须考虑两个方面:
  • 如何识别出会将潜在重复记录分组到一起的匹配组?在 Studio 中使用 Talend 作业即可解决此问题。
  • 如何从数据源中选择最佳特性值,并提供关于用户和系统消耗情况的最准确可靠的主记录?这个问题可使用 Talend Data Stewardship 中的 Merging (合并) 活动予以解决。

要复制示例并使用确切的客户端数据,我们假设活动所有者已经下载本例中所用的输入文件和 Talend 作业。在创建活动后,即可使用它们加载任务。

从本页面左侧面板的 Downloads (下载) 选项卡获取 tds_gettingstarted_source_files.zip 文件。