Indexation d'un jeu de données de référence dans Elasticsearch
Ce scénario s'applique uniquement aux produits Talend Platform avec Big Data et à Talend Data Fabric.
Pour plus de technologies supportées par Talend, consultez .
Dans ce Job, le composant tMatchIndex crée un index dans Elasticsearch et l'alimente avec un jeu de données nettoyées et dédoublonnées contenant une liste de centres d'éducation situés à Chicago.
Après avoir effectué toutes les actions de rapprochement sur le jeu de données contenant une liste de centres d'éducation situés à Chicago, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début lorsque vous avez de nouveaux enregistrements ayant le même schéma. Vous pouvez indexer le jeu de données nettoyées dans Elasticsearch à l'aide de tMatchIndex pour effectuer du rapprochement continu.
-
Vous avez généré un modèle pour appairer les données à l'aide du tMatchPairing.
Pour plus d'informations, consultez Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship (uniquement en anglais) et Calcul de paires suspectes et d'un échantillon suspect à partir de données source (uniquement en anglais)
Vous trouverez des exemples de génération d'un modèle pour appairer les données sur Talend Help Center (https://help.talend.com (uniquement en anglais)).
-
Assurez-vous que les données d'entrée que vous souhaitez indexer sont nettoyées et dédoublonnées.
Pour un exemple de nettoyage et de dédoublonnage d'un jeu de données, consultez Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing (uniquement en anglais).
Vous trouverez un exemple de nettoyage et de dédoublonnage d'un jeu de données sur Talend Help Center (https://help.talend.com (uniquement en anglais)).
-
Le cluster Elasticsearch en version 5+ doit être lancé.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !