Solr SnowballPorterFilterFactory 和 PortugueseStemFilterFactory 之间的区别

Difference between Solr SnowballPorterFilterFactory and PortugueseStemFilterFactory

Solr 具有可与语言参数一起使用的 SnowballPorterFilterFactory

  <filter class="solr.SnowballPorterFilterFactory" language="Portuguese" />

Solr 也有一些特定于语言的词干提取器,例如 PortugueseStemFilterFactory。我已经阅读了 documentation 但我无法找出它们之间的区别。

来自the source comments

Portuguese stemmer implementing the RSLP (Removedor de Sufixos da Lingua Portuguesa) algorithm. This is sometimes also referred to as the Orengo stemmer.

所使用的算法是专门针对葡萄牙语的需要量身定制的,并且了解不同的词 类 以及如何用葡萄牙语对它们进行词干处理。

然而,Snowball 词干分析器是一个通用的词干分析引擎,您可以在其中为其提供一个字典来使用 - 即应该词干提取的后缀等。这些不允许关于如何分类和词干特定的相同类型的知识单词 类.

当你有葡萄牙语 RSLP 可用时,我看不出你为什么要使用 Snowball 版本,但我没有用葡萄牙语做过任何工作(但是我不得不手动更新挪威语一种用于 Snowball 默认情况下未捕获的某些边缘情况。