Indexer un jeu de données de référence dans Elasticsearch

Indexer un jeu de données de référence dans Elasticsearch - 7.3

Rapprochement de données à l'aide des outils Talend

Version

7.3

Language

Français

Product

Talend Big Data Platform

Talend Data Fabric

Talend Data Management Platform

Talend Data Services Platform

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu

Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données

Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou

Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique

Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu

Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données

Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou

Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique

Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu

Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données

Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou

Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique

Last publication date

2024-02-07

Ce scénario s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant une souscription.

Dans ce Job, le composant tMatchIndex crée un index dans Elasticsearch et l'alimente avec un jeu de données nettoyées et dédoublonnées contenant une liste de centres d'éducation situés à Chicago.

Après avoir effectué toutes les actions de rapprochement sur le jeu de données contenant une liste de centres d'éducation situés à Chicago, il n'est pas nécessaire de reprendre le processus de rapprochement depuis le début lorsque vous avez de nouveaux enregistrements ayant le même schéma. Vous pouvez indexer le jeu de données nettoyées dans Elasticsearch à l'aide de tMatchIndex pour effectuer du rapprochement continu.

Avant d'indexer un jeu de données de référence dans Elasticsearch :

Vous avez généré un modèle pour appairer les données à l'aide du tMatchPairing.

Pour plus d'informations, consultez Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship et Calculer des paires suspectes et un échantillon suspect à partir des données source

Vous trouverez des exemples de génération d'un modèle pour appairer les données sur Talend Help Center (https://help.talend.com).
Assurez-vous que les données d'entrée que vous souhaitez indexer sont nettoyées et dédoublonnées.

Pour un exemple de nettoyage et de dédoublonnage d'un jeu de données, consultez Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing.

Vous trouverez un exemple de nettoyage et de dédoublonnage d'un jeu de données sur Talend Help Center (https://help.talend.com).
Le cluster Elasticsearch en version 5+ doit être lancé.