在 R 中使用 DocumenttermMatrix 函数时出错
Error while using DocumenttermMatrix function in R
我已经获取了 1000 行的通用文本,并在文本挖掘过程中执行了以下操作。在使用文档术语矩阵时,我没有将单词数作为矩阵中的输出。
>def<-read.csv("Defect.csv",header = T)
>docs<-Corpus(VectorSource(def$Summary))
>docs<-tm_map(docs,content_transformer(tolower))
>docs<-tm_map(docs,removeNumbers)
>docs<-tm_map(docs,removeWords,stopwords("english"))
>docs<-tm_map(docs,removePunctuation)
>docs<-tm_map(docs,stripWhitespace)
>docs<-tm_map(docs,stemDocument,language = "english")
>docs[[1]]$content
[1] "access logout access employe separ modul"
>dtm<-DocumentTermMatrix(docs)
>data.matrix(dtm)
下面是我为 DTM 得到的输出
Terms
Docs access logout modul separ approv button click display error
我没有得到矩阵中的字数。不确定这里可能是什么错误。
def<-read.csv("Defect.csv",header = T)
docs<-Corpus(VectorSource(def$Summary))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,removeNumbers)
docs<-tm_map(docs,removeWords,stopwords("english"))
docs<-tm_map(docs,removePunctuation)
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument,language = "english")
注意:使用 TermDocumentMatrix
而不是 DocumentTermMatrix
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
rownames(d) <- NULL
现在,您的数据框应该看起来像..
> head(d,10)
word freq
1 file 157
2 data 151
3 incorrect 136
4 target 120
5 issu 95
6 tabl 82
7 sourc 69
8 column 63
9 get 61
10 process 56
我已经获取了 1000 行的通用文本,并在文本挖掘过程中执行了以下操作。在使用文档术语矩阵时,我没有将单词数作为矩阵中的输出。
>def<-read.csv("Defect.csv",header = T)
>docs<-Corpus(VectorSource(def$Summary))
>docs<-tm_map(docs,content_transformer(tolower))
>docs<-tm_map(docs,removeNumbers)
>docs<-tm_map(docs,removeWords,stopwords("english"))
>docs<-tm_map(docs,removePunctuation)
>docs<-tm_map(docs,stripWhitespace)
>docs<-tm_map(docs,stemDocument,language = "english")
>docs[[1]]$content
[1] "access logout access employe separ modul"
>dtm<-DocumentTermMatrix(docs)
>data.matrix(dtm)
下面是我为 DTM 得到的输出
Terms Docs access logout modul separ approv button click display error
我没有得到矩阵中的字数。不确定这里可能是什么错误。
def<-read.csv("Defect.csv",header = T)
docs<-Corpus(VectorSource(def$Summary))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,removeNumbers)
docs<-tm_map(docs,removeWords,stopwords("english"))
docs<-tm_map(docs,removePunctuation)
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument,language = "english")
注意:使用 TermDocumentMatrix
而不是 DocumentTermMatrix
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
rownames(d) <- NULL
现在,您的数据框应该看起来像..
> head(d,10)
word freq
1 file 157
2 data 151
3 incorrect 136
4 target 120
5 issu 95
6 tabl 82
7 sourc 69
8 column 63
9 get 61
10 process 56