潜在语义分析和词干提取

Latent Semantic Analysis and Stemming

假设有一个非常大的任何屈折语言语料库。以下是否有意义?通过在这样的语料库上应用 LSA,具有相似概念的词在向量 space 中汇聚在一起,因此指代相同概念的变形词形式理想情况下应该与它们在 space 中的引理相同。有了这样的假设,就没有必要对查询或语料库进行词形还原或词干提取。还是我完全错了?

根据 LSA 创始人的说法,stemming is not necessary。不过,我认为文献中对此普遍存在分歧。我读过几篇论文,其中发现词干提取可以改善给定信息检索任务的结果。

一般来说,recent research表明词干提取对主题建模没有帮助,甚至可能损害主题连贯性。