将网页中的文本保存为 R 中的词云

Saving text from webpage for word cloud in R

我正在尝试练习在 R 中制作词云,我已经在类似这样的网站 (http://www.r-bloggers.com/building-wordclouds-in-r/) 和 YouTube 上的一些视频中看到了对这个过程的很好的解释。所以我想我会选择一些随机的长文档来练习。

我选择了心灵捕手的剧本。可在此处获得 (https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html)。我所做的是将其复制到 Notepad++ 中并开始删除空行、名称等,以尝试在保存之前清理数据。保存为 .csv 文件似乎不是一个选项,所以我将它保存为 .txt 文件,R 似乎不想读入它。

R 中的以下两行 return 错误

goodwillhunting <- read.csv("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
goodwillhunting <- read.table("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)

我的问题是基于一份 html 文档,最好的保存方法是什么?保存它以便读入以用于此类用途的最佳方法是什么?我知道你可以在网页上阅读 rvest 包。词云教程使用了 .csv 文件,所以我不确定这是否是我的最终目标。

这可能是一种读取该路线数据的方法?

test = read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html")
text = html_text(test)

感谢任何帮助!

这是一种方法:

library(rvest)
library(wordcloud)

test    <- read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/
                      award_winning/good_will_hunting.html")

text    <- html_text(test) 
content <- stringi::stri_extract_all_words(text, simplify = TRUE)

wordcloud(content, min.freq = 10, colors = RColorBrewer::brewer.pal(5,"Spectral"))

给出:

这是一个简单的例子:

library(wordcloud)
text = scan("fulltext.txt", character(0), strip.white = TRUE)
frequency_table = as.data.frame(table(text))
wordcloud(frequency_table$text, frequency_table$Freq)