使用 'rvest' 提取链接
Using 'rvest' to extract links
我正在尝试从 Yelp 抓取数据。第一步是从每家餐厅提取链接。例如,我搜索纽约市的餐馆并获得一些结果。然后我想提取第 1 页上 Yelp 推荐的所有 10 家餐厅的链接。这是我尝试过的方法:
library(rvest)
page=read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')
但是代码总是returns'NA'。任何人都可以帮我吗?谢谢!
library(rvest)
page <- read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name") %>% html_attr('href')
希望这会简化您的问题
我还能够清理上面的结果,这对我来说非常嘈杂
links <- page %>% html_nodes("a") %>% html_attr("href")
使用简单的正则表达式字符串匹配
links <- links[which(regexpr('common-url-element', links) >= 1)]
.
我正在尝试从 Yelp 抓取数据。第一步是从每家餐厅提取链接。例如,我搜索纽约市的餐馆并获得一些结果。然后我想提取第 1 页上 Yelp 推荐的所有 10 家餐厅的链接。这是我尝试过的方法:
library(rvest)
page=read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')
但是代码总是returns'NA'。任何人都可以帮我吗?谢谢!
library(rvest)
page <- read_html("http://www.yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name") %>% html_attr('href')
希望这会简化您的问题
我还能够清理上面的结果,这对我来说非常嘈杂
links <- page %>% html_nodes("a") %>% html_attr("href")
使用简单的正则表达式字符串匹配
links <- links[which(regexpr('common-url-element', links) >= 1)]
.