设定主记录规则和值 - 7.1

Talend Data Stewardship 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
数据建模 > 管理和监控
数据建模 > 管理数据模型
数据质量和准备 > 删除重复数据
数据质量和准备 > 处理任务
EnrichPlatform
Talend Data Stewardship

本例中,客户端副本记录来自不同的源,但 Talend Data Stewardship 首先决定要使用哪些匹配记录的特性根据创建活动时定义的存活规则创建主记录。

数据专员可以审查任务并手动修改每个记录特性的存活规则,或输入全新的值以获得最准确可靠的主记录。

开始之前

  • 活动所有者已创建活动并授予您访问权限。

  • 活动所有者已在活动中向您分配任务。

过程

  1. 作为数据专员登录 Talend Data Stewardship
  2. TASKS (任务) 页面中,单击此示例中的活动名称 Reconciling client data (调解客户端数据),打开分配给您的任务列表。
    列表顶部的质量条使用颜色向您提供每个列中数据质量的清晰视图。指向颜色可获得选定列中数据值的详情。
  3. 单击质量条上的颜色以筛选要使用的数据,并列出匹配颜色指示的任务:
    选项 描述
    绿色 表示匹配列类型的有效数据。
    白色 表示空字段。但是,必填字段的空值以红色标记,而非白色。
    红色 表示不匹配列类型或数据模型中设置参数的无效字段。
  4. 单击任务列表左上角的向下箭头展开所有任务,或单击特定任务的向下箭头将其展开。
  5. 设定存活规则,从客户记录中选择特性并用其构建主记录。有几种可行的方法:
    • 为多个记录的一个特性手动设定存活规则。

      1. 单击列标题,如 Last_Name,在右侧面板中浏览到 Survivorship (存活) 部分。
      2. 展开 Survivorship rule (存活规则) 列表并选择 Most common (最常见) 作为要应用到该列表中所有任务的名称特性的存活规则。
      3. 如果想要将该规则应用于包括空值在内的所有名称值,则清除 Avoid null values (避免 null 值) 复选框,否则将其保留选中状态。
      4. 单击 Submit (提交) 选择最常用的名称值,并将其添加到所有任务的主记录中。
    • 为一个或多个黄金记录的所有特性手动设置存活规则。

      1. 选择要为其设置该规则的任务,然后在右侧面板中的 TASK (任务) 下面,单击 Apply survivorship rule (应用存活规则)
      2. Selection (选择) 列表中,单击 Selected tasks (选定的任务)

        可以将该规则应用于所有任务,或者如果已在列表上定义了筛选器,则可仅应用于筛选的任务。

      3. Rule (规则) 列表中,选择将 Most trusted (最可信) 应用于该组选定的任务。

        如果您已在 Merging (合并) 活动中定义了重复数据的源,则源名称已包括在列表中,并且可选择它作为存活规则以应用于列值。

      4. 如果想要将该规则应用于包括空值在内的所有值,则清除 Avoid null values (避免 null 值) 复选框,否则将其保留选中状态。
      5. 单击 SUBMIT (提交) 以将具有最高分数的名称值添加到选定的黄金记录。
    • 为记录的一个或多个特性手动设定存活规则:指向任务主记录中的特性,并从显示的图标中选择要应用的存活规则。

      • :从重复项中选择第一个有效特性值。“第一个”由创建任务时记录的顺序定义。

      • :从重复项中选择最常见的特性值。

      • :从重复项中选择最新的特性值。

      • :从重复项中选择最可信的特性值。

        存活规则不适用于选定的记录时,存活图标将灰显。

    • 选择给定的源特性的值,作为主记录的值:指向一个源特性,然后单击向上箭头,在主记录中设置所选的值。
  6. 双击主记录中的值,并设定您选择的未在任何源中出现的值。
  7. 如果锁图标为红色背景,先更正任务中的无效值,然后才能将其标记为可以确认。
  8. 重复上述步骤以合并记录并为分配给您的所有任务创建主记录。
  9. 单击您修改的数据记录旁边的 图标,将任务标记为可以确认。
    第一个字段标记为绿色背景,计算任务完成百分比,并在右上角显示该百分比。

    您可以重新修改准备好确认的记录,但这会将任务恢复到其初始状态,背景为深灰色。您需要重新单击锁图标,将任务标记为可以确认。

  10. 单击右上角的 VALIDATE CHOICES (确认选择) 以确认更改,并从列表中移动任务。

结果

主记录已创建,已验证的记录会移动到本示例中被授予 ACCOUNT VALIDATOR 角色的活动参与者列表中。