n-grams in R error: invalid 'times' argument
n-grams in R error: invalid 'times' argument
我正在尝试关注 this example 但遇到了错误。
> library("RWeka")
> library("tm")
Loading required package: NLP
> data("crude")
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))
Error in rep(seq_along(x), sapply(tflist, length)) :
invalid 'times' argument
In addition: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
scheduled core 1 encountered error in user code, all values of the job will be affected
有什么想法吗?
只需使用一些 better/modern 包。我可以建议几个选择:
- 使用 text2vec 而不是
tm
。有关示例,请参见小插图。 (我是作者)
- 值得一看quanteda
- 如果出于某种原因您喜欢
tm
,请尝试使用 tokenizers 包来替换 RWeka
ngram 分词器。
我正在尝试关注 this example 但遇到了错误。
> library("RWeka")
> library("tm")
Loading required package: NLP
> data("crude")
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))
Error in rep(seq_along(x), sapply(tflist, length)) :
invalid 'times' argument
In addition: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
scheduled core 1 encountered error in user code, all values of the job will be affected
有什么想法吗?
只需使用一些 better/modern 包。我可以建议几个选择:
- 使用 text2vec 而不是
tm
。有关示例,请参见小插图。 (我是作者) - 值得一看quanteda
- 如果出于某种原因您喜欢
tm
,请尝试使用 tokenizers 包来替换RWeka
ngram 分词器。