如何从 html 的 href link 登陆比特流 url
how to land up on the bitstream url from the href link of an html
我正在使用 rvest
R
包从 this webpage but the final link is exposed (as a bitstream url - whatever it is) after I click on the exposed url
by name AC1-96-21-01-2011.pdf
. The final pdf file is tucked in here 中抓取一个 PDF 文件,该文件隐藏在访问权限之外。这会阻止 rvest
函数 read_html()
的所有尝试,因为最终的 pdf 文件仅在单击前一个 link(在 href
上)时打开。复制粘贴不允许我进入pdf文件的xml node
。
<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>
最终文件在 url 上,未在 href
节点中公开。
http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf
总结一下,我如何使用 rvest
访问 pdf 文件 link,如上所述,href
属性中找不到。
我试图搜索 bitstream
,但它把我带到了别的地方。
我认为你看错节点了:
library(rvest)
"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html() %>%
html_nodes(xpath = "//td/a[@target='_blank']") %>%
html_attr("href") %>%
unique() %>%
{grep("[.]pdf", ., value = T)} %>%
paste0("http://judgmenthck.kar.nic.in", .) ->
pdf_url
print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"
我正在使用 rvest
R
包从 this webpage but the final link is exposed (as a bitstream url - whatever it is) after I click on the exposed url
by name AC1-96-21-01-2011.pdf
. The final pdf file is tucked in here 中抓取一个 PDF 文件,该文件隐藏在访问权限之外。这会阻止 rvest
函数 read_html()
的所有尝试,因为最终的 pdf 文件仅在单击前一个 link(在 href
上)时打开。复制粘贴不允许我进入pdf文件的xml node
。
<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>
最终文件在 url 上,未在 href
节点中公开。
http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf
总结一下,我如何使用 rvest
访问 pdf 文件 link,如上所述,href
属性中找不到。
我试图搜索 bitstream
,但它把我带到了别的地方。
我认为你看错节点了:
library(rvest)
"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html() %>%
html_nodes(xpath = "//td/a[@target='_blank']") %>%
html_attr("href") %>%
unique() %>%
{grep("[.]pdf", ., value = T)} %>%
paste0("http://judgmenthck.kar.nic.in", .) ->
pdf_url
print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"