从 HTML 抓取 pdf 文件
Web scraping pdf files from HTML
如何从 HTML 中删除 pdf 文档?我正在使用 R,我只能从 HTML 中提取文本。我要报废的网站示例如下
此致
当您说要从 HTML 页抓取 PDF 文件时,我认为您面临的第一个问题是实际识别这些 PDF 文件的位置。
library(XML)
library(RCurl)
url <- "https://www.bot.or.th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx"
page <- getURL(url)
parsed <- htmlParse(page)
links <- xpathSApply(parsed, path="//a", xmlGetAttr, "href")
inds <- grep("*.pdf", links)
links <- links[inds]
links
包含您尝试下载的 PDF 文件的所有 URL。
当心:当您自动抓取他们的文档并被阻止时,很多网站都不太喜欢它。
链接就位后,您可以开始循环链接并一个一个地下载它们并以 destination
的名称将它们保存在您的工作目录中。我决定根据链接为您的 PDF 提取合理的文档名称(在 urls
中的最后 /
之后提取最后一部分
regex_match <- regexpr("[^/]+$", links, perl=TRUE)
destination <- regmatches(links, regex_match)
为避免网站服务器过载,我听说每隔一段时间暂停一次抓取是友好的,因此我使用“Sys.sleep()”暂停抓取一段时间0 和 5 秒:
for(i in seq_along(links)){
download.file(links[i], destfile=destination[i])
Sys.sleep(runif(1, 1, 5))
}
如何从 HTML 中删除 pdf 文档?我正在使用 R,我只能从 HTML 中提取文本。我要报废的网站示例如下
此致
当您说要从 HTML 页抓取 PDF 文件时,我认为您面临的第一个问题是实际识别这些 PDF 文件的位置。
library(XML)
library(RCurl)
url <- "https://www.bot.or.th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx"
page <- getURL(url)
parsed <- htmlParse(page)
links <- xpathSApply(parsed, path="//a", xmlGetAttr, "href")
inds <- grep("*.pdf", links)
links <- links[inds]
links
包含您尝试下载的 PDF 文件的所有 URL。
当心:当您自动抓取他们的文档并被阻止时,很多网站都不太喜欢它。
链接就位后,您可以开始循环链接并一个一个地下载它们并以 destination
的名称将它们保存在您的工作目录中。我决定根据链接为您的 PDF 提取合理的文档名称(在 urls
/
之后提取最后一部分
regex_match <- regexpr("[^/]+$", links, perl=TRUE)
destination <- regmatches(links, regex_match)
为避免网站服务器过载,我听说每隔一段时间暂停一次抓取是友好的,因此我使用“Sys.sleep()”暂停抓取一段时间0 和 5 秒:
for(i in seq_along(links)){
download.file(links[i], destfile=destination[i])
Sys.sleep(runif(1, 1, 5))
}