如何使用lucene进行词形还原和消除空法语单词

how to use lucene for lemmatization and elimination of empty French words

我正在寻找如何使用 lucene 以 java 语言从法语文档中进行词形还原和消除空词我在互联网上看过,但我没有找到好的教程。

"empty words" 的术语是 stop words

Lucene 提供 FrenchAnalyzer class,它带有默认的法语停用词列表。

只需使用 class 作为您的分析器。

这很简单,您只需要一个像这样的 FrenchAnalyzer:

IndexWriterConfig conf= new IndexWriterConfig (Version.LUCENE_45,new FrenchAnalyzer(Version.LUCENE_45,FrenchAnalyzer.getDefaultStopSet()));

对于空词,我们使用:FrenchAnalyzer.getDefaultStopSet() 就像我在之前的代码中所做的那样,对于词形还原,它已经集成在这个分析器中,你会注意到当你寻找重要的词时(通过 tf idf) .