滚雪球投票 [Java]
Snowball Stemmer [Java]
我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来提取词干等。但是,它提取了不一定需要提取词干或提取过多的词?例如,online -> onlin
、why -> whi
、raise-> rais
、appreciate -> appreci
。
有什么方法可以防止这种不必要的词干提取,因为我希望它能给我有意义的词,以及需要词干提取的词干,例如 treating -> treat
、records -> record
, development -> develop
等通过实施某种字典来避免这些词被词干?或者是否有任何其他类似于 Snowball 的词干提取器在词干提取能力上不太精确?
感谢大家的帮助。
这是我的功能。
Porter Stemmer 的主要工作是将单词分组为一组词干。这些词干词很好,因为 Porter 存在用于搜索 objective,即词干是否真实起源并不重要,重要的是它对整个词族都是相同的。
由于您正在为 词频分析 和 搭配 的 objective 工作,我想您需要一个 light stemmer或最小的。
您可以查看这篇文章以了解在 Lucene 中使用的 stemmers。你可以注意到:
minimal_english
The EnglishMinimalStemmer in Lucene, which removes
plurals
我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来提取词干等。但是,它提取了不一定需要提取词干或提取过多的词?例如,online -> onlin
、why -> whi
、raise-> rais
、appreciate -> appreci
。
有什么方法可以防止这种不必要的词干提取,因为我希望它能给我有意义的词,以及需要词干提取的词干,例如 treating -> treat
、records -> record
, development -> develop
等通过实施某种字典来避免这些词被词干?或者是否有任何其他类似于 Snowball 的词干提取器在词干提取能力上不太精确?
感谢大家的帮助。
这是我的功能。
Porter Stemmer 的主要工作是将单词分组为一组词干。这些词干词很好,因为 Porter 存在用于搜索 objective,即词干是否真实起源并不重要,重要的是它对整个词族都是相同的。
由于您正在为 词频分析 和 搭配 的 objective 工作,我想您需要一个 light stemmer或最小的。
您可以查看这篇文章以了解在 Lucene 中使用的 stemmers。你可以注意到:
minimal_english
The EnglishMinimalStemmer in Lucene, which removes plurals