Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing

Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data nécessitant souscription et à Talend Data Fabric.

Dans cet exemple, les données d'entrée sont issues de deux sources :

Les enregistrements suspects identifiés comme étant des doublons et regroupés par le tMatchPredict.

Pour voir un exemple de procédure pour libeller des paires suspectes avec des libellés assignés, consultez Marquage de paires suspectes avec des libellés assignés.
Les enregistrements uniques calculés par le tMatchPairing.

Pour des exemples de calcul de lignes uniques à partir de données source, consultez Calcul de paires suspectes et d'un échantillon suspect à partir de données source et Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship.

Le cas d'utilisation décrit dans ce scénario utilise deux sous-Jobs :

Dans le premier sous-Job, le tRuleSurvivorship traite les enregistrements identifiés comme étant des doublons et regroupés par le tMatchPredict, afin de créer un représentant unique de chaque groupe de doublons.
Dans le deuxième sous-Job, le tUnite fusionne les représentants uniques et les enregistrements uniques afin de créer un jeu de données nettoyées et dédoublonnées qui sera utilisé avec le composant tMatchIndex.

Le fichier de sortie contient des données nettoyées et dédoublonnées. Vous pouvez indexer ce jeu de données de références dans Elasticsearch à l'aide du composant tMatchIndex.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici

Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing

Dans cette section

Cette page vous a-t-elle aidé ?