缓存 read_html
Cache read_html
我尝试缓存 read_html/xml2
以避免在开发过程中淹没服务器
library(digest)
library(xml2)
url = "https://en.wikipedia.org"
cache = digest(url)
if (file.exists(cache)) {
cat("Reading from cache\n")
html = readRDS(cache)
} else {
#Sys.sleep(3)
cat("Reading from web\n")
html = xml2::read_html(url)
saveRDS(html, file = cache)
}
html
这失败了,因为只有外部指针存储在文件中,这些指针在重新 运行 时不再有效。当我在 read_html
.
上使用 memoise
时会出现同样的问题
您可以随时使用 as_list
和 as_xml_document
来回转换。
library(digest)
library(xml2)
url = "https://en.wikipedia.org"
cache = digest(url)
if (file.exists(cache)) {
cat("Reading from cache\n")
html = as_xml_document(readRDS(cache))
} else {
cat("Reading from web\n")
html = read_html(url)
saveRDS(as_list(html), file = cache)
}
html
或者,查看 read_xml
和 write_xml
。
我尝试缓存 read_html/xml2
以避免在开发过程中淹没服务器
library(digest)
library(xml2)
url = "https://en.wikipedia.org"
cache = digest(url)
if (file.exists(cache)) {
cat("Reading from cache\n")
html = readRDS(cache)
} else {
#Sys.sleep(3)
cat("Reading from web\n")
html = xml2::read_html(url)
saveRDS(html, file = cache)
}
html
这失败了,因为只有外部指针存储在文件中,这些指针在重新 运行 时不再有效。当我在 read_html
.
memoise
时会出现同样的问题
您可以随时使用 as_list
和 as_xml_document
来回转换。
library(digest)
library(xml2)
url = "https://en.wikipedia.org"
cache = digest(url)
if (file.exists(cache)) {
cat("Reading from cache\n")
html = as_xml_document(readRDS(cache))
} else {
cat("Reading from web\n")
html = read_html(url)
saveRDS(as_list(html), file = cache)
}
html
或者,查看 read_xml
和 write_xml
。