Gérer les tâches de fusion pour dédoublonner les enregistrements - Cloud

Exemples de Talend Cloud Data Stewardship

Version
Cloud
Language
Français (France)
Product
Talend Cloud
Module
Talend Data Stewardship
Content
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Qualité et préparation de données > Gestion des tâches

Le but des tâches de fusion est de fusionner de potentiels enregistrements en doublon en un seul enregistrement : l'enregistrement maître. Les potentiels enregistrements en doublon peuvent provenir d'une même source (dédoublonnage de données) ou de différentes sources (réconciliation de données).

Dans une campagne Merging, vous pouvez modifier uniquement les valeurs dans les champs maître. Les valeurs dans les champs source ne peuvent être modifiées.

Fusionner des valeurs de données et valider vos modifications permet de passer la tâche via la transition jusqu'au second état défini dans le workflow. Le workflow défini lors de la création de la campagne détermine les états disponibles pour les différents data stewards. Cependant, une tâche ne peut être validée ou marquée comme Ready (prête) tant qu'elle contient au moins une valeur invalide.

Pourquoi et quand exécuter cette tâche

Les enregistrements clients en doublon proviennent de la même source (CRM d'entreprise). Talend Cloud Data Stewardship détermine initialement les attributs des enregistrements correspondants pour créer l'enregistrement maître, selon les règles de consolidation définies lors de la création de la campagne. Cependant, il est possible que vous deviez modifier manuellement les règles de consolidation par attribut d'enregistrement ou que vous deviez saisir de nouvelles valeurs, afin d'avoir les enregistrements maître les plus précis et les plus fiables.

Procédure

  1. Dans la page TASKS, cliquez sur le nom de la campagne, CRM Data Deduplication dans cet exemple, pour ouvrir la liste des tâches qui vous sont assignées.
  2. Utilisez la barre de statistiques en haut de chaque colonne afin de filtrer les données sur lesquelles vous souhaitez travailler, dans la vue CHARTS ou PATTERN dans le panneau de droite.
  3. Cliquez sur la flèche pointant vers le bas, dans le coin supérieur gauche pour développer toutes les tâches de la liste, ou cliquez sur la flèche pointant vers le bas d'une tâche spécifique, pour la développer.
  4. Configurez les règles de consolidation pour sélectionner les attributs des enregistrements clients et utilisez-les pour construire les enregistrements maître. Plusieurs approches sont possibles.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements.

      1. Cliquez sur un en-tête de colonne, First_Name par exemple et, dans le panneau de droite, parcourez jusqu'à la zone Survivorship.
      2. Cliquez sur Apply survivorship rule et, dans la liste Rule, sélectionnez Most common comme règle de consolidation à appliquer sur le nom de l'attribut dans tous les enregistrements clients.

        Si vous avez défini dans la campagne Merging les sources des données en doublon, les noms des sources sont inclus dans la liste et peuvent être sélectionnés comme règle de consolidation pour appliquer aux valeurs des colonnes.

      3. Si vous souhaitez appliquer la règle à toutes les valeurs de noms, même les nulles, décochez la case Avoid null values. Sinon, laissez-la cochée.
      4. Cliquez sur SUBMIT pour sélectionner les valeurs de noms les plus communes et les ajouter aux enregistrements maître des tâches.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements maître.

      1. Sélectionnez les tâches sur lesquelles appliquer la règle et, sous TASK dans le panneau de droite, cliquez sur Apply survivorship rule.
      2. Dans la liste Selection, cliquez sur Selected tasks.

        Vous pouvez appliquer la règle à toutes les tâches ou aux tâches filtrées uniquement si vous avez défini un filtre sur la liste.

      3. Dans la liste Rule, sélectionnez Most trusted par exemple pour appliquer la règle au groupe des tâches sélectionnées.
      4. Si vous souhaitez appliquer la règle à toutes les valeurs, même les nulles, décochez la case Avoid null values. Sinon, laissez-la cochée.
      5. Cliquez sur SUBMIT pour ajouter les valeurs des noms avec le plus haut score aux enregistrements maître sélectionnés.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements : placez votre curseur sur un attribut de l'enregistrement maître d'une tâche et, parmi les icônes qui s'affichent, sélectionnez la règle de consolidation à appliquer.

      •  : sélectionne la première valeur d'attribut valide parmi les doublons. "First" (première valeur) est défini par l'ordre des enregistrements lors de la création de la tâche.

      •  : sélectionne la valeur la plus fréquente d'attribut parmi les doublons.

      • : sélectionne la valeur d'attribut la plus récente parmi les doublons.

      • : permet de sélectionner la valeur la plus fiable d'attribut parmi les doublons provenant de différentes sources.

        Les icônes sont grisées lorsque les règles ne sont pas applicables sur l'attribut sélectionné. Dans cet exemple, l'icône pour l'attribut le plus fiable n'est pas fonctionnelle, puisque les données proviennent d'une source unique : le CRM.

    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements.

      1. Cliquez sur un en-tête de colonne, First_Name par exemple et, dans le panneau de droite, parcourez jusqu'à la zone Survivorship.
      2. Cliquez sur le bouton et, dans la liste Survivorship rule, sélectionnez Most common comme règle de consolidation à appliquer sur le nom de l'attribut dans tous les enregistrements clients.
      3. Cliquez sur Submit pour sélectionner les valeurs de noms les plus communes et les ajouter aux enregistrements maître des tâches.
    • Sélectionner la valeur d'un attribut source donné pour en faire la valeur de l'enregistrement maître : placez votre curseur sur un attribut source et cliquez sur la flèche vers le haut pour définir la valeur sélectionnée dans l'enregistrement maître.
  5. Vous pouvez également cliquer sur le lien de l’e-mail dans la colonne Email pour ouvrir une nouvelle fenêtre et envoyer un e-mail au client pour une valider les informations des enregistrements client.
    Remarque : Les adresses e-mail s'affichent comme hyperliens uniquement si vous avez configuré le type sémantique pour la colonne Email à MailTo URL lors de la définition du modèle de données pour la campagne.
  6. Répétez les étapes ci-dessus pour fusionner les enregistrements et créer les enregistrements maître pour toutes les tâches qui vous sont assignées.
    Si une colonne donnée contient des valeurs devant être corrigées, vous pouvez les transformer en masse en utilisant les fonctions listées dans le panneau de droite.
  7. Cliquez sur l'icône à côté de l'enregistrement de données modifié afin de marquer la tâche comme prête à être validée.
    Lorsque l'icône représentant un cadenas contient un fond rouge, vous devez d'abord corriger la valeur invalide dans la tâche, avant de pouvoir la marquer comme prête à être validée.

    L'enregistrement est marqué avec un fond vert et l'icône de représentant un cadenas est automatiquement déplacée sur le prochain enregistrement. Vous pouvez à nouveau modifier les enregistrements prêts à être validés, mais cela remet la tâche à son état initial, avec un fond gris foncé. Vous devez à nouveau cliquer sur l'icône représentant un cadenas pour marquer les tâches comme prêtes à la validation.

  8. Cliquez sur Validate dans le coin supérieur droit de la page pour valider les modifications apportées aux enregistrements.
    Les enregistrements maître sont créés et les enregistrements validés sont déplacés de la liste et passent en transition vers l'étape suivante du workflow, où ils doivent être approuvés par un·e autre data steward. Dans cet exemple, ils sont déplacés dans la liste du·de la data steward ayant le rôle Account manager.
  9. Les data stewards ayant le rôle Account manager peuvent accéder aux tâches à valider et décider d'accepter ou de rejeter les choix effectués sur les tâches.

Résultats

Les tâches approuvées passent en transition jusqu'à l'état Resolved (résolue) dans le workflow. Les tâches rejetées passent en transition vers l'état initial dans le workflow et sont marquées comme nouvelles.