使用 R、rvest、Rcurl 从网页中抓取财务表

Question

我正在尝试从网页解析财务表格。我继续。但是我无法安排列表，或者data.frame

library(rvest)
link <- "http://www.marketwatch.com/investing/stock/garan/financials/balance-sheet/quarter"
read <- read_html(link)
prs <- html_nodes(read, ".financials")
irre <- html_text(prs)
re <- strsplit(irre, split = "\r\n")

re 是这样的：

[27] "Assets"
[28]“”
[29]“”
[30]“”
[31]“所有价值 TRY 百万。”
[32]“2015 年 12 月 31 日-201530 年 3 月-2015 年 6 月-2015 年 12 月 31 日”
[33]“5 季度趋势”
[34]“”
[35]“”
[36]“”
[37]“”
[38]“总现金和银行存款”
[39] " 27.26B26.27B26.7B34.51B27.9B"
[40]“”
[41]“”
bla bla...

如何通过 data.frame 正确编辑此列表 page

Answer 1

尝试

library(XML)

theurl <- "http://www.marketwatch.com/investing/stock/garan/financials/balance-sheet/quarter"
re <- readHTMLTable(theurl)

结果是一个包含两个数据框的列表。

使用 R、rvest、Rcurl 从网页中抓取财务表

Scraping Financial Tables From Web Page with R, rvest,Rcurl

r

rvest