Import de règles de mise en correspondance depuis le référentiel du Studio - 7.1

Data matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Dans l'assistant de configuration du tMatchGroup, vous pouvez importer des clés de correspondance depuis les règles de rapprochement créées et testées dans la perspective Profiling du Studio Talend . Vous pouvez utiliser ces clés de correspondance importées dans vos Jobs de rapprochement.

Le composant tMatchGroup vous permet d'importer du référentiel du Studio des règles de rapprochement basées sur l'algorithme VSR ou sur l'algorithme T-Swoosh.

L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies. Il compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité de chaque groupe est l'enregistrement maître du groupe. L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.

L'algorithme T-Swoosh vous permet de trouver des doublons et de définir comment deux enregistrements similaires sont fusionnés pour créer un enregistrement maître, à l'aide d'une fonction de consolidation. Ces nouveaux enregistrements fusionnés sont utilisés pour trouver des doublons. La différence avec l'algorithme VSR est que l'enregistrement maître est en général un nouvel enregistrement qui n'existe pas dans la liste des enregistrements d'entrée.

Procédure

  1. Dans l'assistant de configuration, cliquez sur l'icône dans le coin supérieur droit.
    L'assistant Match Rule Selector s'ouvre et liste toutes les règles de rapprochement créées dans le Studio et sauvegardées dans le référentiel.
  2. Sélectionnez la règle de rapprochement que vous souhaitez importer dans le composant tMatchGroup et utiliser sur vos données.
    Un avertissement s'affiche dans l'assistant si la règle de rapprochement que vous souhaitez importer est définie sur des colonnes qui n'existent pas de le schéma d'entrée du tMatchGroup. Vous pouvez définir des colonnes d'entrée ultérieurement dans l'assistant de configuration.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  3. Cochez la case Overwrite current Match Rule in the analysis si vous souhaitez remplacer la règle dans l'assistant de configuration par la règle importée.
    Si vous laissez la case décochée, les clés de correspondance sont importées dans un nouvel onglet Match Rule sans écraser la règle de rapprochement courante dans l'assistant.
  4. Cliquez sur OK.
    La clé de correspondance est importée de la règle de rapprochement et listée en tant que nouvelle règle de l'assistant de configuration.
  5. Cliquez dans la colonne Input Key Attribute et sélectionnez parmi les données d'entrée la colonne sur laquelle appliquer la clé de correspondance.
  6. Dans le champ Match threshold, saisissez le seuil de probabilité de rapprochement Deux enregistrements de données correspondent lorsque le score de correspondance est supérieur à la valeur définie.
  7. Dans la table Blocking Selection, sélectionnez les colonnes du flux d'entrée que vous souhaitez utiliser comme clé de bloc.
    Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements dans chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.
    La table Blocking Selection du composant est différente de la table Generation of Blocking Key dans l'éditeur de règles de rapprochement de la perspective Profiling .
    La colonne de bloc du tMatchGroup peut provenir d'un composant tGenKey (et serait appelée T_GEN_KEY) ou directement du schéma d'entrée (une colonne ZIP par exemple). La table Generation of Blocking Key, dans l'éditeur de règle de rapprochement définit les paramètres nécessaires pour générer une clé de bloc. Cette table est similaire au composant tGenKey. La table Generation of Blocking Key génère une colonne de bloc BLOCK_KEY utilisée pour la création de blocs.
  8. Cliquez sur le bouton Chart dans le coin supérieur droit de l'assistant afin d'exécuter le Job à l'aide de la règle de rapprochement importée et d'afficher les résultats du rapprochement dans l'assistant.