将网页中的文本保存为 R 中的词云

Question

我正在尝试练习在 R 中制作词云，我已经在类似这样的网站 (http://www.r-bloggers.com/building-wordclouds-in-r/) 和 YouTube 上的一些视频中看到了对这个过程的很好的解释。所以我想我会选择一些随机的长文档来练习。

我选择了心灵捕手的剧本。可在此处获得 (https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html)。我所做的是将其复制到 Notepad++ 中并开始删除空行、名称等，以尝试在保存之前清理数据。保存为 .csv 文件似乎不是一个选项，所以我将它保存为 .txt 文件，R 似乎不想读入它。

R 中的以下两行 return 错误

goodwillhunting <- read.csv("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
goodwillhunting <- read.table("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)

我的问题是基于一份 html 文档，最好的保存方法是什么？保存它以便读入以用于此类用途的最佳方法是什么？我知道你可以在网页上阅读 rvest 包。词云教程使用了 .csv 文件，所以我不确定这是否是我的最终目标。

这可能是一种读取该路线数据的方法？

test = read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html")
text = html_text(test)

感谢任何帮助！

Answer 1

这是一种方法：

library(rvest)
library(wordcloud)

test    <- read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/
                      award_winning/good_will_hunting.html")

text    <- html_text(test) 
content <- stringi::stri_extract_all_words(text, simplify = TRUE)

wordcloud(content, min.freq = 10, colors = RColorBrewer::brewer.pal(5,"Spectral"))

给出：

Answer 2

这是一个简单的例子：

library(wordcloud)
text = scan("fulltext.txt", character(0), strip.white = TRUE)
frequency_table = as.data.frame(table(text))
wordcloud(frequency_table$text, frequency_table$Freq)

将网页中的文本保存为 R 中的词云

Saving text from webpage for word cloud in R

import

r

word-cloud

tm

rvest