将 dfm 转换为 DocumentTermMatrix

Convert dfm to DocumentTermMatrix

有这样的数据框:

df <- structure(list(text = c("Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ", 
                              "Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc", 
                              "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ", 
                              "Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc"
)), .Names = "text", class = "data.frame", row.names = c(NA, 
                                                         -4L))

可以使用以下代码:

library(tm)
library(dplyr)
library(stringi)
review_source <-  VectorSource(df$text)
corpus <- VCorpus(review_source)
dtm <- DocumentTermMatrix(corpus)
temp_frequency <- inspect(dtm)
freq_matrix <- data.frame(ST = colnames(temp_frequency),
                          Freq = colSums(temp_frequency))

但是前一个只给我一个标记。

使用 quanteda 的 dfm() 可以有多个标记。示例:

library(quanteda)
myDfm <- dfm(df$text, ngrams = c(1,3))

我的问题是如何像以前一样在以下命令中将 dfm 作为 dtm:

temp_frequency <- inspect(dtm)
    freq_matrix <- data.frame(ST = colnames(temp_frequency),
                              Freq = colSums(temp_frequency))

要使 "a" dfm 成为您示例中的 dtm,相同的命令将起作用:

temp_frequency2 <- as.dfm(temp_frequency)
freq_matrix <- data.frame(ST = colnames(temp_frequency2),
                          Freq = colSums(temp_frequency2))
freq_matrix
#                  ST Freq
# aenean       aenean    8
# amet           amet    4
# consequat consequat    4
# donec         donec    8
# eget           eget    6
# eleifend   eleifend    4
# enim.         enim.    4
# eu,             eu,    4
# fringilla fringilla    4
# sit             sit    6

我更喜欢推荐 featnames(),而不是 colnames()

要将 myDfm 转换为这种格式:

myDfm <- dfm(df$text, ngrams = c(1,3))
freq_matrix <- data.frame(ST = featnames(myDfm),
                          Freq = colSums(myDfm))  
head(freq_matrix)
#          ST Freq
# lorem lorem    6
# ipsum ipsum    2
# dolor dolor    4
# sit     sit    6
# amet   amet    6
# ,         ,   56

要获得更多结构,包括按频率降序以及排名和文档频率排序,请尝试:

head(textstat_frequency(myDfm))
#   feature frequency rank docfreq group
# 1       ,        56    1       4   all
# 2       .        46    2       4   all
# 3  aenean         8    3       2   all
# 4    eget         8    4       4   all
# 5   donec         8    5       4   all
# 6    quis         8    6       4   all