readHTMLTable 函数无法提取 html table

Question

我想从 URL“http://www.moneycontrol.com/financials/oilnaturalgascorporation/profit-loss/IP02”中提取 table（table 4）。问题是我将不得不使用 RSelenium

下面是我使用的代码：

remDr$navigate(URL)
doc<-htmlParse(remDr$getPageSource()[[1]])
x<-readHTMLTable(doc)

上面的代码无法提取 table 4。但是，当我不使用下面的 Rselenium 时，我可以轻松提取 table

download.file(URL,'quote.html')
doc<-htmlParse('quote.html')
x<-readHTMLTable(doc,which=5)

请告诉我解决方案，因为我已经在这部分停留了一个月了。感谢您的建议

Answer 1

我或多或少遇到了同样的问题：我试图想出一个不使用 htmlParse 的解决方案：例如（导航到页面后）： table <- remDr$findElements（使用 = "tag name"，值 = "table"））

您可能需要使用 css 或 xpath，下一步我仍在努力。

我终于得到了一个 table 下载到一个漂亮的小数据框中，当你弄明白时似乎很容易。使用 XML 包中的帮助页面：

library(RSelenium)
library(XML)
u <- 'http://www.w3schools.com/html/html_tables.asp'
doc <- htmlParse(u)
tableNodes <- getNodeSet(do9c, "//table")
tb <- readHTMLTable(tableNodes[[1]])

Answer 2

我找到了解决方案。在我的例子中，我必须先导航到内部框架 (boxBg1)，然后才能提取外部 html，然后使用 readHtmlTable 函数。它现在工作正常。 post 万一我以后运行遇到类似的问题

Answer 3

我觉得效果不错。您可以使用 download.file 获得的 table 也可以通过对 RSelenium

使用以下代码来获得

readHTMLTable(htmlParse(remDr$getPageSource(),asText=TRUE),header=TRUE,which=6)

希望对您有所帮助！

readHTMLTable 函数无法提取 html table

readHTMLTable function not able to extract the html table

analytics

r

rselenium