Gérer les tâches de fusion pour dédoublonner les enregistrements - Cloud

Exemples d'utilisation de Talend Cloud Data Stewardship

Version
Cloud
Language
Français
Product
Talend Cloud
Module
Talend Data Stewardship
Content
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Qualité et préparation de données > Gestion des tâches
Last publication date
2024-04-16

Le but des tâches de fusion est de fusionner de potentiels enregistrements en doublon en un seul enregistrement : l'enregistrement maître. Les potentiels enregistrements en doublon peuvent provenir d'une même source (dédoublonnage de données) ou de différentes sources (réconciliation de données).

Dans une campagne Merging, vous pouvez modifier uniquement les valeurs dans les champs maître. Les valeurs dans les champs source ne peuvent être modifiées.

Fusionner des valeurs de données et valider vos modifications fait passer la tâche au deuxième état défini dans le workflow. Le workflow défini lors de la création de la campagne détermine les états disponibles pour les différents data stewards. Cependant, une tâche ne peut être validée ou marquée comme Ready (prête) tant qu'elle contient au moins une valeur invalide.

Pourquoi et quand exécuter cette tâche

Les enregistrements clients en doublon proviennent de la même source (CRM d'entreprise). Talend Cloud Data Stewardship détermine initialement les attributs des enregistrements correspondants pour créer l'enregistrement maître, selon les règles de consolidation définies lors de la création de la campagne. Cependant, il est possible que vous deviez modifier manuellement les règles de consolidation par attribut d'enregistrement ou que vous deviez saisir de nouvelles valeurs, afin d'avoir les enregistrements maître les plus précis et les plus fiables.

Procédure

  1. Dans la page Tasks (Tâches), cliquez sur le nom de la campagne, CRM Data Deduplication dans cet exemple, pour ouvrir la liste des tâches qui vous sont assignées.
    Vue d'ensemble de la campagne CRM deduplication.
  2. Utilisez la barre de statistiques au-dessus de chaque colonne pour filtrer les données sur lesquelles vous souhaitez travailler, dans la vue Chart (Diagramme) ou Pattern (Modèle), dans le panneau de droite.
  3. Cliquez sur la flèche pointant vers le bas, dans le coin supérieur gauche pour développer toutes les tâches de la liste, ou cliquez sur la flèche pointant vers le bas d'une tâche spécifique, pour la développer.
  4. Configurez les règles de consolidation pour sélectionner les attributs des enregistrements clients et utilisez-les pour construire les enregistrements maître. Plusieurs approches sont possibles.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements.

      1. Cliquez sur un en-tête de colonne, First_Name par exemple et, dans le panneau de droite, parcourez jusqu'à la zone Survivorship.
      2. Cliquez sur Apply survivorship rule (Appliquer la règle de consolidation) et, dans la liste Rule (Règle), sélectionnez Most common (Plus commune) comme règle de consolidation à appliquer aux attributs de nom dans tous les enregistrements clients.

        Si vous avez défini dans la campagne Merging les sources des données en doublon, les noms des sources sont inclus dans la liste et peuvent être sélectionnés comme règle de consolidation pour appliquer aux valeurs des colonnes.

      3. Si vous souhaitez appliquer la règle à toutes les valeurs de noms, même les nulles, décochez la case Avoid null values. Sinon, laissez-la cochée.
      4. Cliquez sur Submit pour sélectionner les valeurs de noms les plus communes et les ajouter aux enregistrements maître des tâches.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements maître.

      1. Sélectionnez les tâches sur lesquelles appliquer la règle et, sous Task (Tâche) dans le panneau de droite, cliquez sur Apply survivorship rule (Appliquer la règle de consolidation).
      2. Dans la liste Selection, cliquez sur Selected tasks.

        Vous pouvez appliquer la règle à toutes les tâches ou uniquement aux tâches filtrées, si vous avez défini un filtre sur la liste.

      3. Dans la liste Rule, sélectionnez Most trusted par exemple pour appliquer la règle au groupe des tâches sélectionnées.
      4. Si vous souhaitez appliquer la règle à toutes les valeurs, même les nulles, décochez la case Avoid null values. Sinon, laissez-la cochée.
      5. Cliquez sur Submit (Soumettre) pour ajouter les valeurs des noms avec le plus haut score aux enregistrements maître sélectionnés.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements : développez la tâche et placez votre curseur sur un attribut de l'enregistrement maître d'une tâche et, parmi les icônes qui s'affichent, sélectionnez la règle de consolidation à appliquer.
      Emplacement des icônes de configuration manuelle d'une règle de consolidation pour un ou plusieurs attribut·s.
      • Icône Use first valid attribute (Utiliser le premier attribut valide) : sélectionne la valeur du premier attribut valide parmi les doublons. "First" (première valeur) est défini par l'ordre des enregistrements lors de la création de la tâche.

      • Icône Use most common (Utiliser la plus fréquente) : sélectionne la valeur la plus fréquente d'attribut parmi les doublons.

      • Icône Use most recent (Utiliser la plus récente) : sélectionne la valeur d'attribut la plus récente parmi les doublons.

      • Icône Use most trusted (Utiliser la plus fiable) : sélectionne la valeur la plus fiable de l'attribut parmi les doublons provenant de différentes sources.

        Les icônes sont grisées lorsque les règles ne sont pas applicables sur l'attribut sélectionné. Dans cet exemple, l'icône pour l'attribut le plus fiable n'est pas fonctionnelle, puisque les données proviennent d'une source unique : le CRM.

    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements.

      1. Cliquez sur un en-tête de colonne, First_Name par exemple et, dans le panneau de droite, parcourez jusqu'à la zone Survivorship.
      2. Cliquez sur Apply survivorship rule (Appliquer la règle de consolidation) et, dans la liste Rule (Règle), sélectionnez Most common (Plus commune) comme règle de consolidation à appliquer aux attributs de nom dans tous les enregistrements clients.
      3. Cliquez sur Submit pour sélectionner les valeurs de noms les plus communes et les ajouter aux enregistrements maître des tâches.
    • Sélectionner la valeur d'un attribut source donné pour en faire la valeur de l'enregistrement maître : placez votre curseur sur un attribut source et cliquez sur la flèche vers le haut pour définir la valeur sélectionnée dans l'enregistrement maître.
  5. Vous pouvez également cliquer sur le lien de l’e-mail dans la colonne Email pour ouvrir une nouvelle fenêtre et envoyer un e-mail au client pour une valider les informations des enregistrements client.
    Remarque : Les adresses e-mail s'affichent comme hyperliens uniquement si vous avez configuré le type sémantique pour la colonne Email à MailTo URL lors de la définition du modèle de données pour la campagne.
  6. Répétez les étapes ci-dessus pour fusionner les enregistrements et créer les enregistrements maître pour toutes les tâches qui vous sont assignées.
    Si une colonne donnée contient des valeurs devant être corrigées, vous pouvez les transformer en masse en utilisant les fonctions listées dans le panneau de droite.
  7. Cliquez sur l'icône Mark the task as ready for validation (Marquer la tâche comme prête pour la validation) à côté de l'enregistrement de données modifié afin de marquer la tâche comme prête à être validée.
    Lorsque l'icône de verrou a un fond rouge, vous devez d'abord corriger la valeur invalide de la tâche avant de pouvoir la marquer comme prête à être validée.

    L'enregistrement a un fond vert et l'icône représentant un verrou est automatiquement déplacée sur l'enregistrement suivant. Vous pouvez à nouveau modifier les enregistrements prêts à être validés, mais cela replace la tâche dans son état initial, avec un fond gris foncé. Vous devez à nouveau cliquer sur l'icône représentant un cadenas pour marquer les tâches comme prêtes à la validation.

  8. Cliquez sur Validate dans le coin supérieur droit de la page pour valider les modifications apportées aux enregistrements.
    Les enregistrements maître sont créés et les enregistrements validés sont déplacés de la liste et passent en transition vers l'étape suivante du workflow, où ils doivent être approuvés par un·e autre data steward. Dans cet exemple, ils sont déplacés dans la liste du·de la data steward ayant le rôle Account manager.
  9. Les data stewards ayant le rôle Account manager peuvent accéder aux tâches à valider et décider d'accepter ou de rejeter les choix effectués sur les tâches.

Résultats

Les tâches approuvées passent en transition jusqu'à l'état Resolved (résolue) dans le workflow. Les tâches rejetées retournent à l'étape initiale du workflow et sont marquées comme nouvelles.