htmlTreeParse 到向量 R
htmlTreeParse to vector R
我正在从网络上抓取数据。我使用了 readlines() 但现在我必须将它更改为 getURL() 和 htmlTreeParse().
a <- getURL(URL)
b<-htmlTreeParse(a, encoding = "UTF-8")
问题是 b$children$html$body returns 对我来说是空的。
现在我一直在尝试将每一行解析的 html 放入一个向量中。
我会感谢每一个想法。
//编辑
我正在尝试从该站点抓取
url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"
当我打印网站的 var b 代码时,它看起来可读并且一切正常
//edit2
b$children$html['body']$body
似乎最接近解决方案
更清楚地说,我希望得到与使用 readlines() 后相同的输出。所以 HTML 的每一行都是向量
的分量
//最终编辑
b <- htmlTreeParse(url, useInternalNodes=TRUE)
html<-b["//body"][[1]]
html<-as(html,"character")
vectors<-strsplit(html,"\n")
这似乎创建了相同的结果,感谢大家的帮助
这些都应该有效:
url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"
b <- htmlTreeParse(url)
classs(b)
# [1] "XMLDocumentContent"
b$children$html["body"]
或者:
b <- htmlTreeParse(url, useInternalNodes=TRUE)
class(b)
# [1] "HTMLInternalDocument" "HTMLInternalDocument" "XMLInternalDocument" "XMLAbstractDocument"
b["//body"]
在后一个示例中,b
是一个已解析的 XML 文档,因此可以使用 xPath 进行索引。
我正在从网络上抓取数据。我使用了 readlines() 但现在我必须将它更改为 getURL() 和 htmlTreeParse().
a <- getURL(URL)
b<-htmlTreeParse(a, encoding = "UTF-8")
问题是 b$children$html$body returns 对我来说是空的。 现在我一直在尝试将每一行解析的 html 放入一个向量中。
我会感谢每一个想法。
//编辑
我正在尝试从该站点抓取
url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"
当我打印网站的 var b 代码时,它看起来可读并且一切正常
//edit2
b$children$html['body']$body
似乎最接近解决方案
更清楚地说,我希望得到与使用 readlines() 后相同的输出。所以 HTML 的每一行都是向量
的分量//最终编辑
b <- htmlTreeParse(url, useInternalNodes=TRUE)
html<-b["//body"][[1]]
html<-as(html,"character")
vectors<-strsplit(html,"\n")
这似乎创建了相同的结果,感谢大家的帮助
这些都应该有效:
url<-"http://www.registeruz.sk/cruz-public/domain/accountingentity/show/1545622"
b <- htmlTreeParse(url)
classs(b)
# [1] "XMLDocumentContent"
b$children$html["body"]
或者:
b <- htmlTreeParse(url, useInternalNodes=TRUE)
class(b)
# [1] "HTMLInternalDocument" "HTMLInternalDocument" "XMLInternalDocument" "XMLAbstractDocument"
b["//body"]
在后一个示例中,b
是一个已解析的 XML 文档,因此可以使用 xPath 进行索引。