Gérer les tâches de fusion pour dédoublonner les enregistrements - 7.0

Exemples de Talend Data Stewardship

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Administration et monitoring > Gestion des utilisateurs
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Qualité et préparation de données > Gestion des tâches
EnrichPlatform
Talend Data Stewardship

Le but des tâches de fusion est de fusionner de potentiels enregistrements en doublon en un seul enregistrement : l'enregistrement maître. Les potentiels enregistrements en doublon peuvent provenir d'une même source (dédoublonnage de données) ou de différentes sources (réconciliation de données).

Dans une campagne Merging, vous pouvez modifier uniquement les valeurs dans les champs maître. Les valeurs dans les champs source ne peuvent être modifiées.

Fusionner des valeurs de données et valider vos modifications permet de passer la tâche via la transition jusqu'au second état défini dans le workflow. Le workflow défini lors de la création de la campagne détermine les états disponibles pour les différents arbitres. Cependant, une tâche ne peut être validée ou marquée comme Ready (prête) tant qu'elle contient au moins une valeur invalide. Cela garantit que les données ne correspondant pas au modèle de données ne sortiront pas de Talend Data Stewardship.

Avant de commencer

Procédure

  1. Dans la page TASKS, cliquez sur le nom de la campagne, CRM Data Deduplication dans cet exemple, pour ouvrir la liste des tâches qui vous sont assignées.

    Exemple

    les enregistrements clients en doublon proviennent de la même source (CRM d'entreprise). Talend Data Stewardship détermine initialement les attributs des enregistrements correspondants pour créer l'enregistrement maître, selon les règles de consolidation définies lors de la création de la campagne. Cependant, il est possible que vous deviez modifier manuellement les règles de consolidation par attribut d'enregistrement ou que vous deviez saisir de nouvelles valeurs, afin d'avoir les enregistrements maître les plus précis et les plus fiables.
  2. Utilisez la barre de statistiques en haut de chaque colonne afin de filtrer les données sur lesquelles vous souhaitez travailler, dans la vue CHARTS ou PATTERN du panneau de droite.
  3. Cliquez sur la flèche pointant vers le bas, dans le coin supérieur gauche pour développer toutes les tâches de la liste, ou cliquez sur la flèche pointant vers le bas d'une tâche spécifique, pour la développer.
  4. Configurez les règles de consolidation pour sélectionner les attributs des enregistrements clients et utilisez-les pour construire les enregistrements maître. Plusieurs approches sont possibles.
    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements : placez votre curseur sur un attribut de l'enregistrement maître d'une tâche et, parmi les icônes qui s'affichent, sélectionnez la règle de consolidation à appliquer.

      • : sélectionne la première valeur d'attribut valide parmi les doublons. "First" (première valeur) est défini par l'ordre des enregistrements lors de la création de la tâche.

      • : sélectionne la valeur la plus fréquente d'attribut parmi les doublons.

      • : sélectionne la valeur d'attribut la plus récente parmi les doublons.

      • : permet de sélectionner la valeur la plus fiable d'attribut parmi les doublons provenant de différentes sources.

        Les icônes sont grisées lorsque les règles ne sont pas applicables sur l'attribut sélectionné. Dans cet exemple, l'icône pour l'attribut le plus fiable n'est pas fonctionnelle, puisque les données proviennent d'une source unique : le CRM.

    • Configurer manuellement une règle de consolidation pour un attribut de plusieurs enregistrements.

      1. Cliquez sur un en-tête de colonne, First_Name par exemple et, dans le panneau de droite, parcourez jusqu'à la zone Survivorship.
      2. Cliquez sur le bouton et, dans la liste Survivorship rule, sélectionnez Most common comme règle de consolidation à appliquer sur le nom de l'attribut dans tous les enregistrements clients.
      3. Cliquez sur Submit pour sélectionner les valeurs de noms les plus communes et les ajouter aux enregistrements maître des tâches.
    • Sélectionner la valeur d'un attribut source donné pour en faire la valeur de l'enregistrement maître : placez votre curseur sur un attribut source et cliquez sur la flèche vers le haut pour définir la valeur sélectionnée dans l'enregistrement maître.
  5. Répétez les étapes ci-dessus pour fusionner les enregistrements et créer les enregistrements maître pour toutes les tâches qui vous sont assignées.
    Si une colonne donnée contient des valeurs devant être corrigées, vous pouvez les transformer en masse en utilisant les fonctions listées dans le panneau de droite.

    Pour plus d'informations, consultez Transformer des données dans une colonne.

  6. Cliquez sur l'icône à côté de l'enregistrement de données modifié, afin de marquer la tâche comme prête à être validée.
    Lorsque l'icône représentant un cadenas contient un fond rouge, vous devez d'abord corriger la valeur invalide dans la tâche, avant de pouvoir la marquer comme prête à être validée.

    L'enregistrement est marqué avec un fond vert et l'icône de représentant un cadenas est automatiquement déplacée sur le prochain enregistrement. Vous pouvez à nouveau modifier les enregistrements prêts à être validés, mais cela remet la tâche à son état initial, avec un fond gris foncé. Vous devez à nouveau cliquer sur l'icône représentant un cadenas pour marquer les tâches comme prêtes à la validation.

  7. Cliquez sur VALIDATE CHOICES dans le coin supérieur droit de la page afin de valider les modifications apportées aux enregistrements.

    Exemple

    Les enregistrements maître sont créés et les enregistrements validés sont déplacés de la liste et passent en transition vers l'étape TO VALIDATE du workflow, où ils doivent être approuvés par un autre arbitre de données. Dans cet exemple, ils sont déplacés dans la liste de l'arbitre de données ayant le rôle ACCOUNT MANGAGER.

  8. Les arbitres de données ayant le rôle ACCOUNT MANAGER, peuvent accéder aux tâches à valider et décider d'accepter ou de rejeter les choix effectués sur les tâches.

Résultats

Les tâche approuvées passent en transition jusqu'à l'état Resolved (résolue) dans le workflow. Les tâches rejetées passent à nouveau à travers une transition, vers l'étape initiale du workflow et sont marquées comme nouvelles.