readHTMLTable 函数无法提取 html table

readHTMLTable function not able to extract the html table

我想从 URL“http://www.moneycontrol.com/financials/oilnaturalgascorporation/profit-loss/IP02”中提取 table(table 4)。问题是我将不得不使用 RSelenium

下面是我使用的代码:

remDr$navigate(URL)
doc<-htmlParse(remDr$getPageSource()[[1]])
x<-readHTMLTable(doc)

上面的代码无法提取 table 4。但是,当我不使用下面的 Rselenium 时,我可以轻松提取 table

download.file(URL,'quote.html')
doc<-htmlParse('quote.html')
x<-readHTMLTable(doc,which=5)

请告诉我解决方案,因为我已经在这部分停留了一个月了。感谢您的建议

我或多或少遇到了同样的问题:我试图想出一个不使用 htmlParse 的解决方案:例如(导航到页面后): table <- remDr$findElements(使用 = "tag name",值 = "table"))

您可能需要使用 css 或 xpath,下一步我仍在努力。

我终于得到了一个 table 下载到一个漂亮的小数据框中,当你弄明白时似乎很容易。使用 XML 包中的帮助页面:

library(RSelenium)
library(XML)
u <- 'http://www.w3schools.com/html/html_tables.asp'
doc <- htmlParse(u)
tableNodes <- getNodeSet(do9c, "//table")
tb <- readHTMLTable(tableNodes[[1]])

我找到了解决方案。在我的例子中,我必须先导航到内部框架 (boxBg1),然后才能提取外部 html,然后使用 readHtmlTable 函数。它现在工作正常。 post 万一我以后 运行 遇到类似的问题

我觉得效果不错。您可以使用 download.file 获得的 table 也可以通过对 RSelenium

使用以下代码来获得
readHTMLTable(htmlParse(remDr$getPageSource(),asText=TRUE),header=TRUE,which=6)

希望对您有所帮助!