如何改进 Sphinx 中句子的检测？

Question

使用 Sphinx 可以在一个句子中搜索单词。例如，我们有下一个文本：

Вася молодец, съел огурец, т.к. проголодался. Такие дела.

如果我搜索

молодец SENTENCE огурец

我找到了这段文字。如果我搜索

молодец SENTENCE проголодался

我找不到这段文字，因为短语 т.к. 中的点被视为句子的结尾。

据我所知，分隔符集硬编码在 Sphinx's sources 中。

我的问题是如何改进句子的检测？对我来说更好的方法是使用 Yandex 的 Tomita 解析器或另一个具有句子智能检测功能的 nlp 库。

Answer 1

使用 Yandex 的 Tomita 解析器将文本拆分成句子。我们得到了由“\n”分割的文本。

删除所有“.”、“!”、“?”每个句子的最后一个。

使用此预处理数据构建 Sphinx 索引。

How to improve detection of sentences in Sphinx?