Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant une souscription.
Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.
-
Les enregistrements suspects identifiés comme étant des doublons et regroupés par le tMatchPredict.
Pour plus d'information sur comment libeller des paires suspectes avec des libellés assignés, consultez Libeller des paires suspectes avec des libellés assignés.
-
Les enregistrements uniques calculés par le tMatchPairing.
Pour retrouver des exemples de calcul d'enregistrements uniques à partir d'un jeu de données, consultez Calcul de paires suspectes et d'un échantillon de paires suspectes à partir d'un jeu de données et Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship.
-
Dans le premier subjob, tRuleSurvivorship traite les enregistrements identifiés comme étant des doublons et regroupés par le tMatchPredict, afin de créer un représentant unique de chaque groupe de doublons.
-
Dans le deuxième subjob, tUnite fusionne les représentants uniques et les enregistrements uniques afin de créer un jeu de données nettoyées et dédoublonnées qui sera utilisé avec le composant tMatchIndex.
Le fichier de sortie contient des données nettoyées et dédoublonnées. Vous pouvez indexer ce jeu de données de références dans Elasticsearch à l'aide du composant tMatchIndex.