移除重复值 - 7.1

Talend MDM Platform 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend MDM Platform
task
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend MDM Server
Talend MDM Web UI
Talend Runtime
Talend Studio

列分析的分析结果显示,电子邮件和电话列中存在一些重复记录。请查阅显示分析结果了解详情。

您可以从分析结果生成即用的作业,将所选列中的唯一记录与重复记录分开。此类作业默认在不合格数据分隔文件中输出所有重复项,并将唯一值写入分析中所用的数据库。

您可以按照相同步骤从电子邮件或电话列中移除重复项。

开始之前

  • 您已在 Studio 中打开剖析透视图。

  • 您已创建并执行列分析。更多详细信息,请参阅识别数据中的异常

过程

  1. 剖析 透视图中打开列分析,然后单击编辑器底部的 Analysis Results (分析结果)
  2. 在电子邮件或电话列的 Simple Statistics (简单统计) 结果中,右键单击 Duplicate Count (重复计数) 并选择Identify duplicates (识别重复项)

    本示例使用电子邮件列中所用的简单统计的结果。

    Integration 透视图将打开,显示生成的作业,作业将在 Repository (存储库) 树视图中列出。

    tMysqlInputtUniqueRowtMysqlOutputBulkExec 组件会根据您的连接和所分析的列自动配置。tMysqlOutputBulkExec 会将唯一记录写入到 MySQL 中的新表,tFileOutputDelimited 则会将重复记录写入输出分隔文件。

  3. F6 执行作业。

结果

重复值写入输出文件,唯一记录则将写入 MySQL 中 gettingstarted 数据库里的新表。