r 文本分析词干补全

Question

如何在R中完成词干后的单词？

x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)

用于说明目的的示例，因为实际的文本语料库要大得多。

我之前搜索过 examples 是指创建一组同义词，但是对于大型语料库，如何获得诸如同义词词典？对于动词，我怎样才能将词干词完成为当前时态？谢谢

Answer 1

TM 有函数 stemCompletion()

x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)
dictCorpus <- tm
tm <- tm_map(tm, stemDocument)
tm <- tm_map(tm, stripWhitespace, mc.cores=cores)  

tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus)

至于将动词补成现在时，我不确定 tm 是否可行。也许 RWeka、word2vec 或 qdap 会有方法，但我不确定。

一个快速而肮脏的解决方案可能是在 stemDocument 中设置 type = shortest 通常我认为当前时态词会比过去时态和动名词短。

r 文本分析词干补全

r text analysis stem completion

text

r

stemming

tm