Finaliser et exécuter le Job - 6.4

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur chaque composant tLogRow pour afficher sa vue Basic settings et définir ses propriétés.
  2. Sauvegarder votre Job et appuyez sur F6 pour l'exécuter.
    Vous pouvez constater que les enregistrements sont regroupés dans trois groupes différents. Chaque enregistrement est listé dans un des trois groupes, selon la valeur du score de groupe, représentant la distance minimale calculée dans le groupe.
    L'identifiant de chaque groupe, de type String, s'affiche dans la colonnes GID à côté de l'enregistrement correspondant. L'identifiant est de type Long pour les Jobs migrés depuis d'anciennes versions. Si vous souhaitez avoir un identifiant de groupe de type String, remplacez le composant tMatchGroup dans le Job importé par un tMatchGroup de la Palette. Le nombre d'enregistrements dans chacun des trois blocs de sortie est listé dans la colonne GRP_SIZE et calculé uniquement sur l'enregistrement maître. La colonne MASTER indique par true ou false si l'enregistrement correspondant est l'enregistrement maître ou non. La colonne SCORE liste la distance calculée entre l'enregistrement d'entrée et l'enregistrement maître, selon les algorithmes de correspondance Jaro-Winkler et Jaro.
    Le Job évalue les enregistrements par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport à la seconde règle.
    Tous les enregistrements dont le score de groupe est compris entre l'intervalle de correspondance 0.95 ou, selon la règle appliquée, 0.85, et le seuil de confiance Confidence Threshold défini dans la vue Advanced settings du tMatchGroup sont listés dans le flux de sortie Suspects.
    Tous les enregistrements dont le score de groupe est supérieur à l'une des probabilités de correspondance sont listés dans le flux de sortie Matches.
    Tous les enregistrements dont la taille du groupe est égale à 1 sont listés dans le flux de sortie Uniques.

Résultats

Pour un autre scénario regroupant les enregistrements de sortie en un flux de sortie unique, basé sur une clé fonctionnelle générée, consultez Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle.