tm 包 R 中的自定义分词器不起作用
Custom tokenizer in tm package R not working
请查看下面的 MWE,自定义分词器不工作,为什么? tm 包版本是 0.71
library(tm)
ts <- c("This is a testimonial")
corpDs <- Corpus(VectorSource(ts))
#This is not working
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+"))
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer))
as.matrix(tdm)
#This is working
ownTokenizer(ts)
输出:
Terms
Docs testimonial this
1 1 1
[1] "Th" "s " "s a test" "mon" "al"
谢谢,
托比亚斯
我知道这现在有点陈旧,但也许它仍然对其他人有帮助:你必须更换
corpDS<-语料库(...)
经过
corpDS<-VCorpus(...)
正如 TermDocumentMatrix 描述中的 tm 文档所述,"SimpleCorpus" 语料库始终使用固定的分词器进行分词 - 没有 costumization - "Corpus"...
似乎是一样的
请查看下面的 MWE,自定义分词器不工作,为什么? tm 包版本是 0.71
library(tm)
ts <- c("This is a testimonial")
corpDs <- Corpus(VectorSource(ts))
#This is not working
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+"))
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer))
as.matrix(tdm)
#This is working
ownTokenizer(ts)
输出:
Terms
Docs testimonial this
1 1 1
[1] "Th" "s " "s a test" "mon" "al"
谢谢,
托比亚斯
我知道这现在有点陈旧,但也许它仍然对其他人有帮助:你必须更换 corpDS<-语料库(...) 经过 corpDS<-VCorpus(...) 正如 TermDocumentMatrix 描述中的 tm 文档所述,"SimpleCorpus" 语料库始终使用固定的分词器进行分词 - 没有 costumization - "Corpus"...
似乎是一样的