R - 标记化 - TermDocumentMatrix 中的单个和两个字母单词

Question

我目前正在尝试进行一些文本处理，我想在 TermDocumentMatrix 中获取一个和两个字母的单词。

问题是它似乎只显示 3 个字母的单词以及更多。

    library(tm)
    library(RWeka)

    test<-'This is a test.'

    testmyCorpus<-Corpus(VectorSource(test))
    testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer))
    inspect(testTDF)

只显示 "this" 和 "test" 两个字。有什么想法吗？

非常感谢您的帮助！罗伯特

Answer 1

Here 几乎可以解决您的问题：简而言之，您应该向 TermDocumentMatrix 添加一个选项 control=list(wordLengths=c(1,Inf)。

R - 标记化 - TermDocumentMatrix 中的单个和两个字母单词

R - Tokenization - single and two letter words in a TermDocumentMatrix

nlp

r

tokenize

tm