如何改进 Sphinx 中句子的检测?

How to improve detection of sentences in Sphinx?

使用 Sphinx 可以在一个句子中搜索单词。例如,我们有下一个文本:

Вася молодец, съел огурец, т.к. проголодался. Такие дела.

如果我搜索

молодец SENTENCE огурец

我找到了这段文字。如果我搜索

молодец SENTENCE проголодался

我找不到这段文字,因为短语 т.к. 中的点被视为句子的结尾。

据我所知,分隔符集硬编码在 Sphinx's sources 中。

我的问题是如何改进句子的检测?对我来说更好的方法是使用 Yandex 的 Tomita 解析器或另一个具有句子智能检测功能的 nlp 库。

使用 Yandex 的 Tomita 解析器将文本拆分成句子。我们得到了由“\n”分割的文本。

删除所有“.”、“!”、“?”每个句子的最后一个。

使用此预处理数据构建 Sphinx 索引。