将网页中的文本保存为 R 中的词云
Saving text from webpage for word cloud in R
我正在尝试练习在 R 中制作词云,我已经在类似这样的网站 (http://www.r-bloggers.com/building-wordclouds-in-r/) 和 YouTube 上的一些视频中看到了对这个过程的很好的解释。所以我想我会选择一些随机的长文档来练习。
我选择了心灵捕手的剧本。可在此处获得 (https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html)。我所做的是将其复制到 Notepad++ 中并开始删除空行、名称等,以尝试在保存之前清理数据。保存为 .csv 文件似乎不是一个选项,所以我将它保存为 .txt 文件,R 似乎不想读入它。
R 中的以下两行 return 错误
goodwillhunting <- read.csv("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
goodwillhunting <- read.table("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
我的问题是基于一份 html 文档,最好的保存方法是什么?保存它以便读入以用于此类用途的最佳方法是什么?我知道你可以在网页上阅读 rvest 包。词云教程使用了 .csv 文件,所以我不确定这是否是我的最终目标。
这可能是一种读取该路线数据的方法?
test = read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html")
text = html_text(test)
感谢任何帮助!
这是一种方法:
library(rvest)
library(wordcloud)
test <- read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/
award_winning/good_will_hunting.html")
text <- html_text(test)
content <- stringi::stri_extract_all_words(text, simplify = TRUE)
wordcloud(content, min.freq = 10, colors = RColorBrewer::brewer.pal(5,"Spectral"))
给出:
这是一个简单的例子:
library(wordcloud)
text = scan("fulltext.txt", character(0), strip.white = TRUE)
frequency_table = as.data.frame(table(text))
wordcloud(frequency_table$text, frequency_table$Freq)
我正在尝试练习在 R 中制作词云,我已经在类似这样的网站 (http://www.r-bloggers.com/building-wordclouds-in-r/) 和 YouTube 上的一些视频中看到了对这个过程的很好的解释。所以我想我会选择一些随机的长文档来练习。
我选择了心灵捕手的剧本。可在此处获得 (https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html)。我所做的是将其复制到 Notepad++ 中并开始删除空行、名称等,以尝试在保存之前清理数据。保存为 .csv 文件似乎不是一个选项,所以我将它保存为 .txt 文件,R 似乎不想读入它。
R 中的以下两行 return 错误
goodwillhunting <- read.csv("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
goodwillhunting <- read.table("C:/Users/MyName/Desktop/goodwillhunting.txt", sep="", stringsAsFactors=FALSE)
我的问题是基于一份 html 文档,最好的保存方法是什么?保存它以便读入以用于此类用途的最佳方法是什么?我知道你可以在网页上阅读 rvest 包。词云教程使用了 .csv 文件,所以我不确定这是否是我的最终目标。
这可能是一种读取该路线数据的方法?
test = read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/award_winning/good_will_hunting.html")
text = html_text(test)
感谢任何帮助!
这是一种方法:
library(rvest)
library(wordcloud)
test <- read_html("https://finearts.uvic.ca/writing/websites/writ218/screenplays/
award_winning/good_will_hunting.html")
text <- html_text(test)
content <- stringi::stri_extract_all_words(text, simplify = TRUE)
wordcloud(content, min.freq = 10, colors = RColorBrewer::brewer.pal(5,"Spectral"))
给出:
这是一个简单的例子:
library(wordcloud)
text = scan("fulltext.txt", character(0), strip.white = TRUE)
frequency_table = as.data.frame(table(text))
wordcloud(frequency_table$text, frequency_table$Freq)