Elasticsearch 的更多搜索建议

More search suggestions with Elasticsearch

我正在构建一个小型垂直搜索引擎,使用 Elasticsearch 作为索引器,使用 Nutch 作为爬虫。我正在使用 HTML 标题字段使用 edge n gram 策略为 ES 构建搜索建议,认为标题字段会很好,因为它应该包含页面主题内容的相关术语,并且它会在搜索建议方面保持索引较小,无论是单个单词还是短语。然而,到目前为止,在测试中,它并没有像想象的那样工作......只是没有那么多建议出现。

目前我只使用大约 10 个站点进行测试,但最终会达到大约 500 个左右。我在想,由于数据集较小(10 个站点,仅在 HTML 标题字段上),可能没有足够的术语或短语来提供好的建议,至少短语建议是这样。

在标题字段上使用 edge n gram 策略来抓取更多网站以创建更多建议(术语和短语)是否明智,或者我应该使用内容字段(显然比标题字段)。

我正在尝试对此进行微调以获得更多搜索建议,尤其是词组建议,同时注意索引大小 - 这样性能就不会受到影响。有什么想法吗?

现在可以说建议比搜索结果本身更重要 --- 我知道这有点荒谬。但用户往往期望如果没有建议,就没有搜索结果。因此,请确保每个可搜索字段都正确反映在您的建议中——尤其是您的内容。还有"optimize later"!不要过早地看你的表现。 500 个站点听起来并不像是您会得到很多文档来编制索引。您使用的是哪种硬件?