图像的网络抓取
Web scraping of image
我是初学者
我创建了一个小代码来使用 rvest 进行网页抓取。
我找到了一个非常方便的代码 %>% html_node ()%>% html_text ()%>% as.numeric ()
,但我无法正确更改用于抓取图像 url 的代码。
我的网页抓取 url 图片代码:
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()
结果:
class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"
问题。如何获得唯一的 link 而没有其他属性? (仅)
请帮我想办法。谢谢!
您需要指定要提取的属性作为 html_attr 的参数。此外,您可能希望使 CSS 选择器(html_node 的参数)更具体。这是我的代码:
library(rvest)
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")
link 变量现在包含 URL。
您可以在此处找到 css 选择器的不错参考:
http://www.w3schools.com/cssref/css_selectors.asp
rvest 文档也有一些关于如何使用其功能的很好的示例:
http://cran.r-project.org/web/packages/rvest/rvest.pdf
klib 是对的。刚刚将 html(已弃用)更新为 read_html 并添加了下载命令。
library(rvest)
myurl <- read_html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
mynode <- myurl %>% html_node("img.wp-image-5984")
link <- html_attr(mynode, "src")
download.file(url = link,destfile = "test.jpg")
我是初学者
我创建了一个小代码来使用 rvest 进行网页抓取。
我找到了一个非常方便的代码 %>% html_node ()%>% html_text ()%>% as.numeric ()
,但我无法正确更改用于抓取图像 url 的代码。
我的网页抓取 url 图片代码:
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()
结果:
class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"
问题。如何获得唯一的 link 而没有其他属性? (仅)
请帮我想办法。谢谢!
您需要指定要提取的属性作为 html_attr 的参数。此外,您可能希望使 CSS 选择器(html_node 的参数)更具体。这是我的代码:
library(rvest)
UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")
link 变量现在包含 URL。
您可以在此处找到 css 选择器的不错参考: http://www.w3schools.com/cssref/css_selectors.asp
rvest 文档也有一些关于如何使用其功能的很好的示例: http://cran.r-project.org/web/packages/rvest/rvest.pdf
klib 是对的。刚刚将 html(已弃用)更新为 read_html 并添加了下载命令。
library(rvest)
myurl <- read_html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
mynode <- myurl %>% html_node("img.wp-image-5984")
link <- html_attr(mynode, "src")
download.file(url = link,destfile = "test.jpg")