Ajouter une campagne Grouping pour identifier les paires de doublons - 7.0

Exemples de Talend Data Stewardship

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Administration et monitoring > Gestion des utilisateurs
Gouvernance de données > Affectation des tâches
Gouvernance de données > Gestion des campagnes
Gouvernance de données > Gestion des modèles de données
Qualité et préparation de données > Gestion des tâches
EnrichPlatform
Talend Data Stewardship

Une campagne Grouping définit une liste de choix possibles d'arbitrage pour des paires ou des groupes d'enregistrements. Le résultat d'une tâche de regroupement est le choix effectué par les arbitres de données sur les groupes d'enregistrements.

Un cas d'utilisation typique pour cette campagne : libeller les paires des doublons suspects dans le contexte de rapprochement de grands volumes de données, à l'aide de l'apprentissage automatique dans Spark. Un autre cas d'utilisation : identifier les groupes de doublons potentiels avant de les envoyer dans une campagne Merging où des arbitres de données pourront fusionner les doublons dans des enregistrements maître.

La campagne Grouping de cet exemple est utilisée dans un processus d'apprentissage automatique dans Spark. Elle permet d'identifier des doublons dans un échantillon de données extrait d'une longue liste de centres d'éducation de Chicago, provenant de dix sources de données différentes. Cette étape du rapprochement de données vient après le calcul des doublons suspects dans la liste des agences, en utilisant le composant tMatchPairing.

Une fois que les gestionnaires de campagnes ont créé la campagne, les arbitres de données doivent regarder l'échantillon de données et décider si les paires d'enregistrements sont des doublons.

Avant de commencer

  • Un administrateur doit avoir créé des utilisateurs Talend Data Stewardship et leur avoir assigné des rôles dans Talend Administration Center. Pour plus d'informations, consultez ../../../reuse/fr/../../../administration/users/fr/c-tds_create_users.html#c-tds_create_users.

  • Vous devez avoir un rôle de Gestionnaire de campagne assigné dans Talend Administration Center.

  • Vous devez avoir défini un modèle de données pour la campagne, dans Talend Data Stewardship.

  • Vous devez avoir accédé à Talend Data Stewardship en tant que gestionnaire de campagne.