在 R 中对两种语言使用双词干提取
Use double stemming for two languages in R
在我的语料库中有俄语和英语两种语言。
Hello, how are you
Привет, как дела
我可以对两种语言使用双词干吗
像这样的东西
tw.corpus <- tm_map(tw.corpus,stemDocument, c("russian","english"))
还是需要另一种方法?
stemDocument
只考虑语言向量的第一个参数。您当前的代码将只会阻止俄语(而不是英语)。
要执行双词干提取,您只需执行两次词干提取(每种语言一次)。
tw.corpus <- tm_map(tw.corpus,stemDocument, c("russian"))
tw.corpus <- tm_map(tw.corpus,stemDocument, c("english"))
在我的语料库中有俄语和英语两种语言。
Hello, how are you
Привет, как дела
我可以对两种语言使用双词干吗 像这样的东西
tw.corpus <- tm_map(tw.corpus,stemDocument, c("russian","english"))
还是需要另一种方法?
stemDocument
只考虑语言向量的第一个参数。您当前的代码将只会阻止俄语(而不是英语)。
要执行双词干提取,您只需执行两次词干提取(每种语言一次)。
tw.corpus <- tm_map(tw.corpus,stemDocument, c("russian"))
tw.corpus <- tm_map(tw.corpus,stemDocument, c("english"))