移除重复值 - 8.0

Talend Big Data Platform 入门指南

Version
8.0
Language
中文(简体)
Operating system
Big Data Platform
Product
Talend Big Data Platform
Module
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
Content
安装和升级
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
Last publication date
2023-07-26

列分析的分析结果显示,电子邮件和电话列中存在一些重复记录。请查阅显示分析结果了解详情。

您可以从分析结果生成即用的作业,将所选列中的唯一记录与重复记录分开。此类作业默认在不合格数据分隔文件中输出所有重复项,并将唯一值写入分析中所用的数据库。

您可以按照相同步骤从电子邮件或电话列中移除重复项。

开始之前

  • 您已在 Studio 中打开 剖析 透视图。

  • 您已创建并执行列分析。更多详细信息,请参阅识别数据中的异常

步骤

  1. 剖析 透视图中打开列分析,然后单击编辑器底部的 Analysis Results (分析结果)
  2. 在电子邮件或电话列的 Simple Statistics (简单统计) 结果中,右键单击 Duplicate Count (重复计数) 并选择Identify duplicates (识别重复项)

    本示例使用电子邮件列中所用的简单统计的结果。

    Integration 透视图将打开,显示生成的作业,作业将在 Repository (存储库) 树视图中列出。

    tMysqlInputtUniqueRowtMysqlOutputBulkExec 组件会根据您的连接和所分析的列自动配置。tMysqlOutputBulkExec 会将唯一记录写入到 MySQL 中的新表,tFileOutputDelimited 则会将重复记录写入输出分隔文件。

  3. F6 执行作业。

结果

重复值写入输出文件,唯一记录则将写入 MySQL 中 gettingstarted 数据库里的新表。