Créer la règle de rapprochement pour grouper les enregistrements similaires - 7.1

Data Stewardship

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Stewardship
Gouvernance de données > Systèmes tiers > Composants Data Stewardship
Qualité et préparation de données > Systèmes tiers > Composants Data Stewardship
EnrichPlatform
Studio Talend
Talend Data Stewardship
Configurez le composant tMatchGroup pour grouper les potentiels doublons à l'aide d'algorithmes de rapprochement.

Procédure

  1. Double-cliquez sur le tMatchGroup afin d'afficher l'assistant de configuration dans lequel vous pouvez définir la règle de rapprochement.
  2. Dans la table Key Definition, définissez les algorithmes de rapprochement que vous allez utiliser et les colonnes sur lesquelles vous allez les appliquer. De la même manière, dans la table Blocking Selection, choisissez quelles colonnes vous allez utiliser en tant que valeur de bloc afin de réduire le nombre de paires à examiner.
    Pour plus d'informations, consultez tMatchGroup.
  3. Cliquez sur le bouton Chart afin d'obtenir les résultats de rapprochement dans l'assistant et cliquez sur OK.
  4. Dans les propriétés du composant, cliquez sur Advanced settings et assurez-vous que la case Sort output data by GID est cochée.
    Remarque : Si cette option n'est pas activée, des doublons potentiels pourraient être groupés dans différentes tâches lorsqu'ils seront chargés dans Talend Data Stewardship.
  5. Double-cliquez sur le tMap pour ouvrir son éditeur.
  6. Mappez le flux de données d'entrée au flux de sortie et les colonnes GID et MASTER à TDS_GID et TDS_MASTER, respectivement.
    Pour plus d'informations concernant le tMap, consultez Propriétés du tMap Standard.
  7. Lorsque les données viennent d'une source unique, saisissez le nom de la source pour la colonne TDS_SOURCE, dans la table à droite, CRM dans cet exemple. Vérifiez que le nom de la source ne contient pas de point et ne commence pas par un symbole dollar.
    Si vous ne spécifiez aucun nom de source, Source 1 est ajouté par défaut, puis Source 2, etc.
  8. Si vous devez stocker les résultats du rapprochement dans un système externe, mappez la colonne GID à la colonne TDS_EXTERNAL_ID.
    Cela vous permet de référencer une tâche donnée à partir du système externe.
  9. Lorsque les données viennent de sources différentes et que le schéma d'entrée dispose d'une colonne contenant le nom des sources, mappez la colonne source à TDS_SOURCE.

    Si vous ne spécifiez aucun nom de source, Source 1, Source 2, etc. sont ajoutés par défaut.

    Si vous spécifiez le même nom pour différentes sources d'une même tâche, les suffixes -1, -2, etc. sont ajoutés par défaut. Par exemple, si vous créez une tâche avec trois sources SAP, le nom des sources dans Talend Data Stewardship s'affichent comme suit : SAP, SAP - 1, SAP - 2.

    Vous pouvez également calculer de manière dynamique les scores de confiance des enregistrements spécifiques si vous les fournissez au niveau de la source de la tâche et que vous les mappez vers la colonne de sortie TDS_RATING dans le tDataStewardshipTaskOutput. Ces scores de confiance écrasent les éventuels scores définis lors de la création de la campagne.

    Vérifiez que les noms des sources dans le fichier d'entrée ne contiennent pas de point et ne commencent pas par un symbole dollar.

  10. Cliquez sur OK.