Sphinx 的缺点 index_sp?

Downside to Sphinx index_sp?

我需要启用 Sphinx 的 index_sp(句子和段落索引功能),这样我就可以执行 'Word1 SENTENCE Word2' 搜索,即两个单词存在于同一个句子中的搜索,但目前不存在工作,根据 Sphinx Extended Query Syntax 的文档,这是 SENTENCE 运算符的要求。

然而,由于 Sphinx 在功能组合的匹配工作或不工作方面非常微妙,而且由于它不是内置选项,我想知道是否有经验的人可以告诉我可能的缺点是什么,其他比 size/speed 的索引,可能是因为我讨厌中断工作匹配。

关于扩展查询语法的情况。无论如何,您几乎肯定会使用它。它是 sphinx 的唯一模式(无论如何,早期版本确实有多种查询模式) ... 所以它本身不应该是可怕的。

可能是 index_sp 的更大问题,它由 HTML Stripper 实现,因此还需要启用 html_strip=1。这很可能会改变查询的行为。 (如果有 HTML 反正!)

唯一知道 index_sp 可能会影响事情的地方是 'cross sentence phrase matches'。

如果没有 index_sp,像“一二”这样的查询将匹配文本 [one.两个],但是 index_sp 它不会。即。已经分裂成句子,所以不再匹配“短语”。这可能是一件好事,但却是一种改变。 在某些情况下,这可能会影响不是真正的句子分隔符的东西。例如。可以打破句子,当它不是一个句号时。 Sphinx作为一个比较好的刹车语句算法,但并不完美