滚雪球投票 [Java]

Snowball Stemmer [Java]

我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来提取词干等。但是,它提取了不一定需要提取词干或提取过多的词?例如,online -> onlinwhy -> whiraise-> raisappreciate -> appreci

有什么方法可以防止这种不必要的词干提取,因为我希望它能给我有意义的词,以及需要词干提取的词干,例如 treating -> treatrecords -> record, development -> develop 等通过实施某种字典来避免这些词被词干?或者是否有任何其他类似于 Snowball 的词干提取器在词干提取能力上不太精确?

感谢大家的帮助。

这是我的功能。

Porter Stemmer 的主要工作是将单词分组为一组词干。这些词干词很好,因为 Porter 存在用于搜索 objective,即词干是否真实起源并不重要,重要的是它对整个词族都是相同的。

由于您正在为 词频分析 搭配 的 objective 工作,我想您需要一个 light stemmer或最小的。

您可以查看这篇文章以了解在 Lucene 中使用的 stemmers。你可以注意到:

minimal_english

The EnglishMinimalStemmer in Lucene, which removes plurals