HebMorph with solr:如何使用停用词

HebMorph with solr: how to use stopwords

我正在开发一个应用程序,它支持使用 "solr" 引擎索引和搜索多语言文本,包括希伯来语。

经过大量搜索,我发现 HebMorph 是最适合希伯来语的插件

我的问题是 HebMorph 与希伯来文停用词的行为似乎与 solr 不同:

1) 这是 HebMorph 的正常行为吗?如果是,我该如何更改它?如果不是,我应该改变什么?

2) 因为 HebMorph 不支持同义词,(正如我在他们的文档中读到的,这是未来的工作)。有没有办法像 solr 支持的那样使用希伯来语的同义词作为其他语言? (即通过在 solrconfig 中添加适当的过滤器并指向同义词文件)?

在此先感谢您的帮助。

我是 HebMorph 的作者。

确实支持停用词,但您需要在词形还原器启动之前将其过滤掉。假设最新版本的 HebMorph - 您的停用词过滤器需要在分词器之后立即进入,这意味着它还需要注意附加到停用词的 בחל"מ 个字母。

现在对所有语言的一般建议是不要删除停用词 - 至少在索引中不要,所以我建议不要在这里应用停用词过滤器。

关于同义词 - 根本问题在于 HebMorph 词形还原器有时会将一个词扩展为多个词条,这使得应用同义词的工作更具挑战性。使用(相对)新的基于图形的分析器,现在可以做到这一点,我们也可能会实现它,并且将支持 OOTB 的 Lucene 的同义词过滤器。

在商业版本中,已经有一种方法可以自定义单词列表并覆盖字典定义,这在像希伯来语这样的歧义语言中很有用。许多人以此作为创建同义词的方式。