URL 重定向时的 R 抓取 (302)

Question

R 相关问题，我是 R 的新手

我是运行电影数据库的爬虫，但至少有一个 URL 被重定向到另一个页面。

你知道我如何关注 URL 并抓取重定向的网站吗？

我已经通过这种方法获得了XML

require(XML) 
require(RCurl) 
fixedURL <- getURL("https://www.themoviedb.org/movie/260346-taken-3/cast")
parsed.html <- htmlParse(fixedURL)

如果有帮助，也可以使用 scrapeR 包。

但是 URL 被重定向 (302) 到“https://www.themoviedb.org/movie/260346-tak3n/cast” 任何想法如何让它跟随重定向？（它是循环的一部分，重定向很少。）

Answer 1

rvest 包似乎落在了正确的页面上...

library("rvest")
url <- "https://www.themoviedb.org/movie/260346-taken-3/cast"
# get movie title
url %>% 
  html() %>% 
  html_nodes("#mainCol :nth-child(1) :nth-child(1) :nth-child(1) :nth-child(1)") %>%
  html_text()

[1] "Taken 3"

URL 重定向时的 R 抓取 (302)

R scraping when URL is Redirected (302)

redirect

r

scraper

rcurl