R中具有多个单词和特殊字符的词云

Question

我想用R创建一个词云。我想可视化变量名的出现，它可能包含多个单词以及特殊字符和数字，例如一个变量名是"S & P 500 dividend yield" .

变量名在文本文件中，没有进一步分隔。文本文件的每一行都包含一个新的变量名。

我试过下面的代码，但是变量名被分成了不同的字符：

library(tm)
library(SnowballC)
library(wordcloud)
library(RColorBrewer)


# load the text:
text <- readLines("./Overview_used_series.txt")
docs <- Corpus(VectorSource(text))
inspect(docs)

# build a term-document matrix:
tdm <- TermDocumentMatrix(docs)
m <- as.matrix(tdm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)


# generate the wordcloud:
pdf("Word cloud.pdf")
wordcloud(words = d$word, freq = d$freq, min.freq = 1,
      max.words=200, random.order=FALSE, rot.per=0.35, 
      colors=brewer.pal(8, "Dark2"))
dev.off()

如何处理变量名，以便它们在 wordcloud 中以其在文本文件中的原始名称可视化？

Answer 1

如果您指定的文件每行都有一个变量名，则无需使用 tm。您可以轻松创建自己的词频 table 用作输入。使用 tm 时，它会根据 space 拆分单词，并且不会尊重您的变量名称。

从加载文本开始，只需创建一个 data.frame，其中频率设置为 1，然后您就可以聚合所有内容。 wordcloud 也像这样接受 data.frame，你可以从中创建一个词云。请注意，我稍微调整了比例，因为当你有长变量名时，它们可能不会被打印出来。发生这种情况时，您会收到一条警告消息。

我没有插入生成的图片。

#text <- readLines("./Overview_used_series.txt")
text <- c("S & P 500 dividend yield", "S & P 500 dividend yield", "S & P 500 dividend yield", 
          "visualize ", "occurence ", "variable names", "visualize ", "occurence ", 
          "variable names")

# freq = 1 adds a columns with just 1's for every value.
my_data <- data.frame(text = text, freq = 1, stringsAsFactors = FALSE)

# aggregate the data.    
my_agr <- aggregate(freq ~ ., data = my_data, sum)

wordcloud(words = my_agr$text, freq = my_agr$freq, min.freq = 1,
          max.words=200, random.order=FALSE, rot.per=0.35, 
          colors=brewer.pal(8, "Dark2"), scale = c(2, .5))

R中具有多个单词和特殊字符的词云

Word cloud in R with multiple words and special characters

r

word-cloud