htmlTreeParse 到向量 R

Question

我正在从网络上抓取数据。我使用了 readlines() 但现在我必须将它更改为 getURL() 和 htmlTreeParse().

    a <- getURL(URL)
    b<-htmlTreeParse(a, encoding = "UTF-8")

问题是 b$children$html$body returns 对我来说是空的。现在我一直在尝试将每一行解析的 html 放入一个向量中。

我会感谢每一个想法。

//编辑

我正在尝试从该站点抓取

url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"

当我打印网站的 var b 代码时，它看起来可读并且一切正常

//edit2

b$children$html['body']$body

似乎最接近解决方案

更清楚地说，我希望得到与使用 readlines() 后相同的输出。所以 HTML 的每一行都是向量

的分量

//最终编辑

  b <- htmlTreeParse(url, useInternalNodes=TRUE)
  html<-b["//body"][[1]]
  html<-as(html,"character")
  vectors<-strsplit(html,"\n")

这似乎创建了相同的结果，感谢大家的帮助

Answer 1

这些都应该有效：

url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"

b <- htmlTreeParse(url)
classs(b)
# [1] "XMLDocumentContent"
b$children$html["body"]

或者：

b <- htmlTreeParse(url, useInternalNodes=TRUE)
class(b)
# [1] "HTMLInternalDocument" "HTMLInternalDocument" "XMLInternalDocument"  "XMLAbstractDocument" 
b["//body"]

在后一个示例中，b 是一个已解析的 XML 文档，因此可以使用 xPath 进行索引。

htmlTreeParse 到向量 R

htmlTreeParse to vector R

xml

r

rcurl