如何从 html 的 href link 登陆比特流 url

how to land up on the bitstream url from the href link of an html

我正在使用 rvest R 包从 this webpage but the final link is exposed (as a bitstream url - whatever it is) after I click on the exposed url by name AC1-96-21-01-2011.pdf. The final pdf file is tucked in here 中抓取一个 PDF 文件,该文件隐藏在访问权限之外。这会阻止 rvest 函数 read_html() 的所有尝试,因为最终的 pdf 文件仅在单击前一个 link(在 href 上)时打开。复制粘贴不允许我进入pdf文件的xml node

<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>

最终文件在 url 上,未在 href 节点中公开。 http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf

总结一下,我如何使用 rvest 访问 pdf 文件 link,如上所述,href 属性中找不到。

我试图搜索 bitstream,但它把我带到了别的地方。

我认为你看错节点了:

library(rvest)

"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html()                                                       %>%
html_nodes(xpath = "//td/a[@target='_blank']")                    %>%
html_attr("href")                                                 %>% 
unique()                                                          %>% 
{grep("[.]pdf", ., value = T)}                                    %>%
paste0("http://judgmenthck.kar.nic.in", .)                         ->
pdf_url

print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"