如何改进 Sphinx 中句子的检测?
How to improve detection of sentences in Sphinx?
使用 Sphinx 可以在一个句子中搜索单词。例如,我们有下一个文本:
Вася молодец, съел огурец, т.к. проголодался. Такие дела.
如果我搜索
молодец SENTENCE огурец
我找到了这段文字。如果我搜索
молодец SENTENCE проголодался
我找不到这段文字,因为短语 т.к.
中的点被视为句子的结尾。
据我所知,分隔符集硬编码在 Sphinx's sources 中。
我的问题是如何改进句子的检测?对我来说更好的方法是使用 Yandex 的 Tomita 解析器或另一个具有句子智能检测功能的 nlp 库。
使用 Yandex 的 Tomita 解析器将文本拆分成句子。我们得到了由“\n”分割的文本。
删除所有“.”、“!”、“?”每个句子的最后一个。
使用此预处理数据构建 Sphinx 索引。
使用 Sphinx 可以在一个句子中搜索单词。例如,我们有下一个文本:
Вася молодец, съел огурец, т.к. проголодался. Такие дела.
如果我搜索
молодец SENTENCE огурец
我找到了这段文字。如果我搜索
молодец SENTENCE проголодался
我找不到这段文字,因为短语 т.к.
中的点被视为句子的结尾。
据我所知,分隔符集硬编码在 Sphinx's sources 中。
我的问题是如何改进句子的检测?对我来说更好的方法是使用 Yandex 的 Tomita 解析器或另一个具有句子智能检测功能的 nlp 库。
使用 Yandex 的 Tomita 解析器将文本拆分成句子。我们得到了由“\n”分割的文本。
删除所有“.”、“!”、“?”每个句子的最后一个。
使用此预处理数据构建 Sphinx 索引。