查找并分组类似内容 - 7.3

Talend Data Preparation 入门指南

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
数据质量和准备 > 清理数据
EnrichPlatform
Talend Data Preparation

查找并分组类似文本可用于协调仅有细微差异的内容。

注: 查找并分组类似文本功能不支持亚洲字符。

customers.xlsx 文件中,有关于客户职业的信息。有些值相互非常类似,如 College/Grad Student (大学生/研究生)College Student (大学生)。提高可读性乃至数据质量的一种方法是将其中一些值归在一起。

要查找并分组类似内容,请按如下步骤继续:

过程

  1. 单击 Occupation (职业) 列标头选择其内容。

    您可以在统计框中确认,仅有作业标题的出现次数稍有不同。

  2. 在函数列表中,选择 Find and Group Similar Text.... (查找并分组类似文本....)

    将打开 Find and group similar text (查找并分组类似文本) 菜单。

    所有类似职业都归入第二列中。在本例中为 College/Grad Student (大学生/研究生)College Student (大学生)。第三列表示可以替换第二列值的职业标题。您可以从下拉列表选择另一个值,或者键入新值。如果您希望保持不变,则清除值或值组前的复选框。

  3. 在第三列的下拉列表中,选择 College Student (大学生)
  4. 单击 Submit (提交)

结果

所有 College/Grad Student (大学生/研究生)College Student (大学生) 的出现次数都已重新归入 College Student (大学生) 下,新的协调值。