如何在 apache lucene 中使用 MorfologikAnalyzer 进行词形还原?

How to use MorfologikAnalyzer in apache lucene for lemmatization?

我正在使用 Apache Lucene 创建英文搜索引擎。由于我需要为此进行词形还原,因此我使用 Stanford CoreNLP 并且我知道该怎么做。

是否可以使用 MorfologikAnalyzer 或 Apache Lucene 开箱即用的类似工具来进行词形还原?

不幸的是,MorfologikAnalyzer 只能使用波兰语并提供词干提取功能,而不是词形还原。

没有内置的 Apache Lucene 分析器可以帮助您。因此,现有的选项如下:

当然有几个付费的词形还原引擎,其中一些可能比上面的引擎更丰富,特别是如果特定领域需要词形还原等。

我不会在这里列出它们中的任何一个,但是如果需要的话应该不难找到它们。