Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant une souscription.
Dans ce Job, le composant tMatchIndex crée un index dans Elasticsearch et l'alimente avec un jeu de données nettoyées et dédoublonnées contenant une liste de centres d'éducation situés à Chicago.
Après avoir effectué toutes les actions de rapprochement sur le jeu de données contenant une liste de centres d'éducation situés à Chicago, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début lorsque vous avez de nouveaux enregistrements ayant le même schéma. Vous pouvez indexer le jeu de données nettoyées dans Elasticsearch à l'aide de tMatchIndex pour effectuer du rapprochement continu.
-
Vous avez généré un modèle pour appairer les données à l'aide du tMatchPairing.
Pour plus d'informations, consultez Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship et Calculer des paires suspectes et un échantillon suspect à partir des données source
Vous trouverez des exemples de génération d'un modèle pour appairer les données sur Talend Help Center (https://help.talend.com).
-
Assurez-vous que les données d'entrée que vous souhaitez indexer sont nettoyées et dédoublonnées.
Pour un exemple de nettoyage et de dédoublonnage d'un jeu de données, consultez Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing.
Vous trouverez un exemple de nettoyage et de dédoublonnage d'un jeu de données sur Talend Help Center (https://help.talend.com).
-
Le cluster Elasticsearch en version 5+ doit être lancé.