Indexer des données nettoyées et dédoublonnées dans Elasticsearch - 7.1

Continuous matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
EnrichPlatform
Studio Talend
Talend Data Stewardship

Avant de commencer

  • Le cluster Elasticsearch et le front-end Elasticsearch-head doivent être lancés avant l'exécution du Job.

    Pour plus d'information sur Elasticsearch-head, qui est un plugin utilisé pour parcourir un cluster Elasticsearch, consultez https://mobz.github.io/elasticsearch-head/ (en anglais).

Procédure

  1. Double-cliquez sur le tMatchIndex pour afficher sa vue Basic settings et définissez les propriétés du composant.
  2. Dans la zone Elasticsearch configuration, saisissez l'emplacement du cluster hébergeant le système Elasticsearch utlilisé dans le champ Nodes, par exemple :

    "localhost:9200"

  3. Saisissez l'index à créer dans Elasticsearch, dans le champ Index, par exemple :

    education-agencies-chicago

  4. Si vous avez besoin de nettoyer l'index Elasticsearch saisi dans le champ Index, cochez la case Reset index.
  5. Saisissez le chemin d'accès au dossier local contenant les fichiers de modèles générés dans le champ Pairing model folder.
  6. Appuyez sur F6 afin de sauvegarder et exécuter le Job.

Résultats

Le tMatchIndex a créé l'index education-agencies-chicago dans Elasticsearch, l'a alimenté avec les données nettoyées et a calculé les meilleurs suffixes basés sur les valeurs des clés de bloc.

Vous pouvez utiliser le plugin Elasticsearch-head afin de parcourir l'index créé par le tMatchIndex.

Vous pouvez maintenant utiliser les données indexées en tant que jeu de données de référence avec le composant tMatchIndexPredict.

Pour un exemple de rapprochement continu, consultez Effectuer un rapprochement continu à l'aide du tMatchIndexPredict.