L'algorithme T-Swoosh - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Ce scénario décrit un Job simple comparant des colonnes dans le fichier d'entrée à l'aide de la méthode de rapprochement de Jaro-Winkler sur les colonnes lname and fname. Il groupe ensuite les enregistrements de sortie dans des flux de sortie :
  • Uniques : liste les enregistrements dont la taille du groupe (distance minimale calculée dans l'enregistrement) est égale à 1.

  • Matches : liste les enregistrements dont la qualité du groupe est supérieure ou égale au seuil défini dans le champ Confident match threshold.

  • Suspects : liste les enregistrements dont la qualité du groupe est inférieure au seuil défini dans le champ Confident match threshold.

La qualité du groupe est la distance minimale calculée parmi toutes les paires d'enregistrements du groupe.