在活动中设定数据模型 - 7.1

Talend Data Stewardship 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
数据建模 > 管理和监控
数据建模 > 管理数据模型
数据质量和准备 > 删除重复数据
数据质量和准备 > 处理任务
EnrichPlatform
Talend Data Stewardship

活动中使用的数据模型决定了要管理的数据的结构。

在活动中,您需要选择要用于数据语法和语义确认的数据模型,并确定每个角色对所选数据模型中每个特性的读/写访问权限。

过程

  1. Add Campaign (添加活动) 页面中,单击 Data Model (数据模型),并从模型列表中选择要在活动中使用的数据结构。
    该模型列表提供对所有已在 Talend Data Stewardship 服务器上定义的数据模型的访问权限。
  2. 选择数据结构中每个特性旁的按钮,以设定每个特性和数据专员的权限,并定义哪些人可以查看/编辑哪些特性。
    选项 描述
    提供对数据模型中特性的读/写访问权限。
    仅提供对数据模型中特性的读取访问权限。

    对于数据专员需要访问信息以做出相关决定但不得更改值的情况,例如连接到数据专员正在查看的实体的其他元素的唯一标识符,或者您知道可靠且不得更改的数据,这类访问权限将非常有用。

    不提供对该特性的访问权限。

    对于财务信息等敏感且不应被数据专员看到的信息,隐藏特性十分有用。隐藏特性的另一示例是技术标识符,这类信息对于数据专员而言纯粹是噪音,但又需要作为任务的一部分进行传播。

    本活动中,您为具有 ACCOUNT ANALYST 角色的活动参与者授予对标识符特性的只读权限。而其他参与者具有读写权限。

  3. 从各特性旁边的 Survivorship Rule (存活规则) 列表中选择一项规则。
    在将数据加载到活动中时,系统会自动使用这些规则来确定主记录由哪些特性值定义。然后,数据专员可以手动修改这些选项。
    选项 描述
    First valid (第一个有效) 针对数据模型中所定义特性的数据类型,选择数据类型值为有效值的第一个源。“第一个”由创建任务时记录的顺序定义。
    First not null (第一个非 null) 选择包含一个非空值的第一个源,其中“第一个”由创建任务时记录的顺序定义。
    Most common (最常见) 选择来自一个或多个数据源的重复项的最常见特性值。
    Most recent (最新) 选择来自一个或多个数据源的重复项的最新特性值。这基于上次更新日期的元数据。
    Most trusted (最可信) 选择重复项的最可信特性值,选择依据是您创建活动或在活动中加载任务时设定的可信分数。如果未定义可信分数,则此选项不起作用。
    您可以从表单右上角的列表中为所有特性选择一项规则。如果无法应用给定算法,则规则将回退到 First not null (第一个非 null)。例如,如果您未设定可信分数,并且在活动定义期间选择 Most trusted (最可信),则会使用 First not null (第一个非 null)。同样,如果您选择 Most common (最常见)First valid (第一个有效) 且数据重复项之间没有常见或有效值,则会使用 First not null (第一个非 null)
    以下示例介绍存活规则如何规定选择哪些值来构建主记录。
    First valid (第一个有效):电子邮件地址:
    • 如果第一个值不是有效值但第二个值是有效值,则第二个电子邮件胜出。
    • 如果所有电子邮件地址都是无效的,则第一个非空值胜出。
    First not null (第一个非 null):名字:
    • 如果第一个值为空但第二个值不为空,则第二个名字胜出。
    • 如果所有名字均为空,则主记录中的名字为空。
    Most common (最常见):姓氏:
    • 如果两个源记录中的姓氏相同,则该值胜出。
    • 如果所有源记录中的姓氏各不相同,则第一个非空值胜出。
    Most recent (最新):电话号码和时间戳:
    • 如果某个电话号码具有最新时间戳,则该值胜出。
    • 如果所有电话号码都具有相同的时间戳,则第一个非空值胜出。
    Most trusted (最可信):地址:
    • 如果源记录中的所有地址都有信任分数,则分数最高的值胜出。
    • 如果源记录中的所有地址都有信任分数并且有两个地址相同,则第一个相同的地址胜出。
    • 如果并非所有地址都有信任分数,则第一个非空值胜出。
  4. 或者,单击 ADD CAMPAIGN (添加活动) 将其保存到应用程序中,并在您方便时完成创建表。