Configurer un modèle de données dans la campagne Merging - 7.0

Exemples de Talend Data Stewardship

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Administration et monitoring > Gestion des utilisateurs
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Qualité et préparation de données > Gestion des tâches
EnrichPlatform
Talend Data Stewardship

Le modèle de données utilisé dans une campagne décide de la structure des données à gérer.

Dans une campagne, vous devez sélectionner le modèle de données à utiliser pour la validation syntaxique et sémantique des données et décider des droits d'accès en lecture/par rôle pour chaque attribut du modèle de données sélectionné.

Procédure

  1. Dans la page d'accueil, cliquez sur Data Model et sélectionnez dans la liste des modèles la structure de données à utiliser dans la campagne CRM data deduplication.

    La liste Data Model donne accès à tous les modèles de données définis sur le serveur de Talend Data Stewardship.

  2. Sélectionnez un bouton à côté de chaque attribut dans la structure de données afin de configurer les permissions par attribut et par arbitre de données, ainsi que pour définir qui peut voir/modifier quels attributs.
    Option Description
    donne un accès en lecture/écriture à l'attribut dans le modèle de données.
    donne un accès en lecture seule à l'attribut dans le modèle de données.

    Ce type d'accès est utile si l'arbitre de données doit accéder aux informations pour prendre une décision mais ne doit pas modifier la valeur, par exemple des identifiants uniques des autres éléments liés à l'entité que l'arbitre consulte, ou des données que vous savez être fiables et qui ne doivent pas être modifiées.

    ne donne aucun accès à l'attribut.

    Masquer un attribut est utile si les informations sont sensibles et ne doivent pas être visibles par l'arbitre de données, par exemple pour des informations financières. Un autre exemple d'attribut à masquer si les informations ne sont pas utiles à l'arbitre est l'identifiant technique, même s'il doit être propagé en tant que partie de la tâche.

    Exemple

    Dans la campagne CRM Data Deduplication, vous donnez un accès en lecture seule à l'attribut d'identifiant aux arbitres de données ayant le rôle account analyst.

  3. Sélectionnez une règle dans les listes Survivorship Rule, à côté de chaque attribut.
    Ces règles sont automatiquement utilisées pour décider des valeurs d'attribut définissant les enregistrements maître lors du chargement de données dans la campagne. Les arbitres de données peuvent manuellement modifier ces choix.
    Option Description
    La première valide Sélectionne la première source contenant une valeur valide par rapport au type de données de l'attribut défini dans le modèle de données. "First" (première valeur) est défini par l'ordre des enregistrements lors de la création de la tâche.
    La première non vide Sélectionne la première source contenant une valeur non vide, où "first" est défini par l'ordre des enregistrements lors de la création de la tâche.
    La plus commune Sélectionne la valeur d'attribut la plus commune des doublons provenant d'une ou plusieurs source(s) de données.
    La plus récente Sélectionne la valeur de l'attribut la plus récente parmi les doublons provenant d'une ou plusieurs source(s). Cette règle se base sur les métadonnées de la date de dernière mise à jour.
    La plus fiable Sélectionne la valeur de l'attribut la plus fiable parmi les doublons, selon l'indice de confiance configuré lors de la création de la campagne ou lors du chargement des tâches dans la campagne. Si aucun indice de confiance n'est défini, cette option ne fonctionne pas.
    Vous pouvez sélectionner une règle pour tous les attributs en la sélectionnant dans la liste dans le coin supérieur droit du formulaire. Si un algorithme donné ne peut être appliqué, la règle qui s'applique est First not null. Par exemple, si vous ne configurez pas d'indice de confiance et que vous sélectionnez Most trusted durant la définition de la campagne, la règle First not null est appliquée. De la même manière, First not null est appliquée si vous sélectionnez Most common ou First valid et qu'il n'y a pas de valeur commune ou valide parmi les données en doublon.

    Exemple

    Voici des exemples concernant les règles de consolidation et la manière dont elles dictent les valeurs à choisir pour construire des enregistrements maître.
    First valid: Email address :
    • Si la première valeur n'est pas valide et que la deuxième l'est, alors la deuxième l'emporte.
    • Si toutes les adresses e-mail sont invalides, la première valeur non vide l'emporte.
    First not null: First name :
    • Si la première valeur est vide et que la deuxième ne l'est pas, le deuxième prénom l'emporte.
    • Si tous les prénoms sont vides, le prénom est vide dans l'enregistrement maître.
    Most common: Last name :
    • Si les noms de famille sont identiques dans les deux enregistrements source, cette valeur l'emporte.
    • Si les noms de famille sont différents dans tous les enregistrements source, la première valeur non vide l'emporte.
    Most recent : Phone number and timestamp :
    • Le numéro de téléphone avec l'horodatage le plus récent l'emporte.
    • Si tous les numéros de téléphone ont le même horodatage, la première valeur non vide l'emporte.
    Most trusted: Address :
    • Si toutes les adresses des enregistrements source ont un score de confiance, la valeur avec le plus haut score l'emporte.
    • Si tous les enregistrements d'adresses ont des scores de confiance et que deux sont identiques, la première identique l'emporte.
    • Si aucune adresse n'a de score de confiance, la première valeur non vide l'emporte.