将字符串插入 R 中 URL 的中间

Question

我正在使用 rvest 抓取 IMDB 列表，并想访问完整演员表和工作人员的列表。不幸的是，当您单击标题时 IMDB 创建了一个摘要页面，它把我带到了错误的页面。

这是我得到的网页：https://www.imdb.com/title/tt1375666/?ref_=ttls_li_tt

这是我需要的网页：https://www.imdb.com/title/tt1375666/fullcredits/?ref_=tt_ql_cl

注意 URL 中添加了 /fullcredits。

如何将 /fullcredits 插入到我构建的 URL 中间？

#install.packages("rvest")
#install.packages("dplyr")

library(rvest) #webscraping package
library(dplyr) #piping 

link = "https://www.imdb.com/list/ls006266261/?st_dt=&mode=detail&page=1&sort=list_order,asc"
credits = "fullcredits/"
page = read_html(link)


name <- page %>% rvest::html_nodes(".lister-item-header a") %>% rvest::html_text()
movie_link = page %>% rvest::html_nodes(".lister-item-header a") %>%  html_attr("href") %>% paste("https://www.imdb.com", .,  sep="")

Answer 1

这是一个选项 - 从 link 中获取 dirname 和 basename，将 basename 的子字符串替换为新的子字符串 ("tt_ql_cl") 并在

之间插入“fullcredits”后再次加入 file.path

library(stringr)
movie_link2 <- file.path(dirname(movie_link), "fullcredits", 
       str_replace(basename(movie_link), "ttls_li_tt", "tt_ql_cl"))

-输出

> head(movie_link2)
[1] "https://www.imdb.com/title/tt0068646/fullcredits/?ref_=tt_ql_cl"
[2] "https://www.imdb.com/title/tt0099685/fullcredits/?ref_=tt_ql_cl"
[3] "https://www.imdb.com/title/tt0110912/fullcredits/?ref_=tt_ql_cl"
[4] "https://www.imdb.com/title/tt0114814/fullcredits/?ref_=tt_ql_cl"
[5] "https://www.imdb.com/title/tt0078788/fullcredits/?ref_=tt_ql_cl"
[6] "https://www.imdb.com/title/tt0117951/fullcredits/?ref_=tt_ql_cl"
> tail(movie_link2)
[1] "https://www.imdb.com/title/tt0144084/fullcredits/?ref_=tt_ql_cl"
[2] "https://www.imdb.com/title/tt0119654/fullcredits/?ref_=tt_ql_cl"
[3] "https://www.imdb.com/title/tt0477348/fullcredits/?ref_=tt_ql_cl"
[4] "https://www.imdb.com/title/tt0080339/fullcredits/?ref_=tt_ql_cl"
[5] "https://www.imdb.com/title/tt0469494/fullcredits/?ref_=tt_ql_cl"
[6] "https://www.imdb.com/title/tt1375666/fullcredits/?ref_=tt_ql_cl"

Answer 2

另一种方式，

df1 = gsub("\?.*", "", movie_link)
df = paste0(df1, 'fullcredits/?ref_=tt_ql_cl')
df
  [1] "https://www.imdb.com/title/tt0068646/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0099685/fullcredits/?ref_=tt_ql_cl"
  [3] "https://www.imdb.com/title/tt0110912/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0114814/fullcredits/?ref_=tt_ql_cl"
  [5] "https://www.imdb.com/title/tt0078788/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0117951/fullcredits/?ref_=tt_ql_cl"
  [7] "https://www.imdb.com/title/tt0137523/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0108052/fullcredits/?ref_=tt_ql_cl"
  [9] "https://www.imdb.com/title/tt0118749/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0105236/fullcredits/?ref_=tt_ql_cl"
 [11] "https://www.imdb.com/title/tt0111161/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0073195/fullcredits/?ref_=tt_ql_cl"
 [13] "https://www.imdb.com/title/tt0075314/fullcredits/?ref_=tt_ql_cl" "https://www.imdb.com/title/tt0119488/fullcredits/?ref_=tt_ql_cl"

将字符串插入 R 中 URL 的中间

Inserting string into the middle of a URL in R

r

rvest