URL 重定向时的 R 抓取 (302)
R scraping when URL is Redirected (302)
R 相关问题,我是 R 的新手
我是 运行 电影数据库的爬虫,但至少有一个 URL 被重定向到另一个页面。
你知道我如何关注 URL 并抓取重定向的网站吗?
我已经通过这种方法获得了XML
require(XML)
require(RCurl)
fixedURL <- getURL("https://www.themoviedb.org/movie/260346-taken-3/cast")
parsed.html <- htmlParse(fixedURL)
如果有帮助,也可以使用 scrapeR 包。
但是 URL 被重定向 (302) 到“https://www.themoviedb.org/movie/260346-tak3n/cast”
任何想法如何让它跟随重定向? (它是循环的一部分,重定向很少。)
rvest 包似乎落在了正确的页面上...
library("rvest")
url <- "https://www.themoviedb.org/movie/260346-taken-3/cast"
# get movie title
url %>%
html() %>%
html_nodes("#mainCol :nth-child(1) :nth-child(1) :nth-child(1) :nth-child(1)") %>%
html_text()
[1] "Taken 3"
R 相关问题,我是 R 的新手
我是 运行 电影数据库的爬虫,但至少有一个 URL 被重定向到另一个页面。
你知道我如何关注 URL 并抓取重定向的网站吗?
我已经通过这种方法获得了XML
require(XML)
require(RCurl)
fixedURL <- getURL("https://www.themoviedb.org/movie/260346-taken-3/cast")
parsed.html <- htmlParse(fixedURL)
如果有帮助,也可以使用 scrapeR 包。
但是 URL 被重定向 (302) 到“https://www.themoviedb.org/movie/260346-tak3n/cast” 任何想法如何让它跟随重定向? (它是循环的一部分,重定向很少。)
rvest 包似乎落在了正确的页面上...
library("rvest")
url <- "https://www.themoviedb.org/movie/260346-taken-3/cast"
# get movie title
url %>%
html() %>%
html_nodes("#mainCol :nth-child(1) :nth-child(1) :nth-child(1) :nth-child(1)") %>%
html_text()
[1] "Taken 3"