清除不匹配值 - 8.0

Talend Data Fabric 入门指南

Version
8.0
Language
中文(简体)
Operating system
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
Content
安装和升级
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
Last publication date
2023-07-26

电子邮件和电话列中使用的模式结果显示某些记录不符合标准电子邮件和电话格式。请查阅显示分析结果了解详情。

您可以从分析结果生成即用的作业,从列中恢复不匹配的行。

您可以按照相同步骤从电子邮件或电话列中移除不匹配值。

开始之前

  • 您已在 Studio 中打开 剖析 透视图。

  • 您已创建并执行列分析。更多详细信息,请参阅识别数据中的异常

步骤

  1. 剖析 透视图中打开列分析,然后单击编辑器底部的 Analysis Results (分析结果)
  2. Email (电子邮件)Phone (电话) 列的 Pattern Matching (模式匹配) 表中,右键单击结果并选择 Generate Job (生成作业)

    本示例使用电话列中所用的 US Phone numbers (美国电话号码) 模式的结果。

  3. 在打开的向导中,单击 Finish (完成) 确认创建作业。

    Integration 透视图将打开,显示生成的作业,作业将在 Repository (存储库) 树视图中列出。

    此作业使用提取转换加载过程在两个单独的输出文件中写入与模式匹配和不匹配的电话行。

    tMysqlInput 会根据您的连接自动配置,tPatternCheck 则根据您分析的列自动配置。

  4. 如果需要,双击每个输出组件并更改输出文件的默认名称或路径。
  5. F6 执行作业。

    匹配和不匹配的电话号码会写入两个单独的输出文件。

  6. 右键单击每个 tFileOutputDelimited 组件,然后选择 Data Viewer (数据查看器) 打开与电话模式匹配和不匹配的数据的视图。

结果

然后您可以设计一个作业,例如使用 tStandardizePhoneNumber 组件标准化与模式匹配的电话号码,并为其提供正确的国际格式。