Configurer la seconde passe - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Dans la vue Basic settings du tMatchGroup nommé pass2, sélectionnez Simple VSR dans la liste Matching Algorithm.
    Dans ce scénario, la règle de rapprochement utilise l'algorithme VSR.
  2. Cliquez sur le bouton Preview pour afficher l'assistant Configuration Wizard.
    Si ce composant n'a pas le même schéma que le composant précédent, une icône d'avertissement s'affiche. Dans ce cas, cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent. Cela fait, l'icône disparaît.
  3. Dans la table Key Definition, cliquez sur le bouton [+] pour ajouter la colonne sur laquelle vous souhaitez effectuer l'opération de rapprochement, lname dans ce scénario.
    Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

    Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

  4. Sélectionnez l'algorithme Jaro-Winkler dans la colonne Matching Function.
  5. Configurez la colonne Weight à 1 et, dans la colonne Handle Null, sélectionnez l'opérateur null à utiliser pour gérer les attributs nulls dans la colonne, Null Match Null dans ce scénario.
  6. Cliquez sur le bouton [+] sous la table Blocking Selection pour ajouter une ligne à la table, puis cliquez dans la ligne et sélectionnez dans la liste la colonne à utiliser comme valeur de bloc, T_GEN_KEY1 dans cet exemple.
  7. Cliquez sur l'onglet Advanced settings et cochez la case Multi-pass. Cette option permet au tMatchGroup de recevoir des ensembles de données du tMatchGroup précédent dans le Job.
  8. Dans la vue Advanced settings, cochez la case Sort the output data by GID pour trier les données de sortie selon leur ID de groupe.
  9. Cochez la case Deactivate matching computation when opening the wizard si vous ne souhaitez pas exécuter les règles de rapprochement lors de la prochaine ouverture de l'assistant.