Calculer des paires suspectes et un échantillon suspect à partir des données source - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data nécessitant souscription et à Talend Data Fabric.

Dans ce scénario, le tMatchPairing utilise une clé de bloc pour calculer les paires de doublons suspects dans une liste de centres d'éducation de la petite enfance à Chicago.

Le cas d'utilisation décrit ici utilise :

  • un composant tFileInputDelimited pour lire le fichier d'entrée, contenant une liste des centres d'éducation de la petite enfance de Chicago, provenant de dix sources différentes,

  • un composant tMatchPairing pour pré-analyser les données, calculer les paires de doublons suspects et générer un modèle permettant d'appairer les données, utilisé par le composant tMatchPredict,

  • trois composants tFileOutputDelimited pour écrire en sortie les doublons suspects, un échantillon des paires suspectes et les enregistrements uniques,

  • un composant tLogRow pour écrire en sortie les doublons exacts.