在 R 中对两种语言使用双词干提取

Use double stemming for two languages in R

在我的语料库中有俄语和英语两种语言。

Hello, how are you
Привет, как дела

我可以对两种语言使用双词干吗 像这样的东西

tw.corpus <- tm_map(tw.corpus,stemDocument,  c("russian","english"))

还是需要另一种方法?

stemDocument 只考虑语言向量的第一个参数。您当前的代码将只会阻止俄语(而不是英语)。

要执行双词干提取,您只需执行两次词干提取(每种语言一次)。

tw.corpus <- tm_map(tw.corpus,stemDocument,  c("russian"))
tw.corpus <- tm_map(tw.corpus,stemDocument,  c("english"))