动态网页抓取 table
web scraping of a dynamic table
我想从 this page
上的 table 抓取数据
但是 httr
中的 GET
或 rvest
中的 read_html
都无法读取 table。我已经检查了该网页的结构,但找不到任何关于在加载网页时获取数据的 POST 或 GET 请求。
从页面源代码我们可以看到 table 嵌入在一个框架中。 table 本身的 URL 是 at this link.
所以你可以试试:
u <- "http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1466632112484&V_YEAR=2016&V_waterplace=%27%E5%90%89%E6%9E%97%E6%BA%AA%E6%B5%AA%E5%8F%A3%27"
mytable <- u %>%
read_html() %>%
html_node("table") %>%
html_table()
然后进行一些清理以处理非英文字符。
我想从 this page
上的 table 抓取数据但是 httr
中的 GET
或 rvest
中的 read_html
都无法读取 table。我已经检查了该网页的结构,但找不到任何关于在加载网页时获取数据的 POST 或 GET 请求。
从页面源代码我们可以看到 table 嵌入在一个框架中。 table 本身的 URL 是 at this link.
所以你可以试试:
u <- "http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1466632112484&V_YEAR=2016&V_waterplace=%27%E5%90%89%E6%9E%97%E6%BA%AA%E6%B5%AA%E5%8F%A3%27"
mytable <- u %>%
read_html() %>%
html_node("table") %>%
html_table()
然后进行一些清理以处理非英文字符。