Accéder au contenu principal Passer au contenu complémentaire

Indexer des données nettoyées et dédoublonnées dans Elasticsearch

Avant de commencer

  • Le cluster Elasticsearch et le front-end Elasticsearch-head doivent être lancés avant l'exécution du Job.

    Pour plus d'informations sur Elasticsearch-head, qui est un plug-in utilisé pour parcourir un cluster Elasticsearch, consultez https://mobz.github.io/elasticsearch-head/ (en anglais).

Procédure

  1. Double-cliquez sur le tMatchIndex pour afficher sa vue Basic settings et définissez les propriétés du composant.
  2. Dans la zone ElasticSearch configuration, saisissez l'emplacement du cluster hébergeant le système Elasticsearch à utiliser dans le champ Nodes, par exemple :

    "localhost:9200"

  3. Saisissez l'index à créer dans Elasticsearch, dans le champ Index, par exemple :

    education-agencies-chicago

  4. Si vous avez besoin de nettoyer l'index Elasticsearch saisi dans le champ Index, cochez la case Reset index.
  5. Saisissez le chemin d'accès au dossier local contenant les fichiers de modèles générés dans le champ Pairing model folder.
  6. Appuyez sur F6 afin de sauvegarder et exécuter le Job.

Résultats

Le tMatchIndex a créé l'index education-agencies-chicago dans Elasticsearch, l'a alimenté avec les données nettoyées et a calculé les meilleurs suffixes basés sur les valeurs des clés de bloc.

Vous pouvez utiliser le plug-in Elasticsearch-head afin de parcourir l'index créé par le tMatchIndex.

Vous pouvez maintenant utiliser les données indexées en tant que jeu de données de référence avec le composant tMatchIndexPredict.

Pour un exemple de rapprochement continu, consultez Rapprochement continu à l'aide du tMatchIndexPredict.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !