图像的网络抓取

Question

我是初学者

我创建了一个小代码来使用 rvest 进行网页抓取。我找到了一个非常方便的代码 %>% html_node ()%>% html_text ()%>% as.numeric ()，但我无法正确更改用于抓取图像 url 的代码。

我的网页抓取 url 图片代码：

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")

img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()

结果：

class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"

问题。如何获得唯一的 link 而没有其他属性？（仅）

请帮我想办法。谢谢！

Answer 1

您需要指定要提取的属性作为 html_attr 的参数。此外，您可能希望使 CSS 选择器（html_node 的参数）更具体。这是我的代码：

library(rvest)

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")

link 变量现在包含 URL。

您可以在此处找到 css 选择器的不错参考： http://www.w3schools.com/cssref/css_selectors.asp

rvest 文档也有一些关于如何使用其功能的很好的示例： http://cran.r-project.org/web/packages/rvest/rvest.pdf

Answer 2

klib 是对的。刚刚将 html（已弃用）更新为 read_html 并添加了下载命令。

library(rvest)    

myurl <- read_html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
mynode <- myurl %>% html_node("img.wp-image-5984")
link <- html_attr(mynode, "src")
download.file(url = link,destfile = "test.jpg")

图像的网络抓取

Web scraping of image

r

rvest