使用 XML 包在 R 中抓取 html headers
Scraping html headers in R using XML package
我正在尝试从 html 代码中提取 header 1 (h1),如下所示:
<div class="cuerpo-not"><div mod="2323">
<h1>Jamón 5 Jotas, champagne Bollinger y King Alexander III</h1>
我正在使用函数 xpathSApply()
但它 returns 没有:
xpathSApply(webpage, "//div[contains(@class, 'cuerpo-not')]/h1", xmlValue)
# list()
但是当我使用相同的函数而不指定 header 的 class 时,它 returns class 以下的所有信息都采用这种格式:
xpathSApply(webpage, "//div[contains(@class, 'cuerpo-not')]", xmlValue)
# ;\n\t\t}\n\t}\n\t\n\t\n\tenviarNoticiaLeida_Site( 6916437,16 ) ;\n//]]>Jamón 5 Jotas, champagne Bollinger y King Alexander III\n\n\n\tPor J.M.
如何将信息提取为字符串?在其他网页中,以前的代码已经起作用。
我认为您只需要在查询中再添加一个 /
到 h1
,如 //h1
而不是 /h1
。
library(XML)
x <- '<div class="cuerpo-not"><div mod="2323">
<h1>Jamón 5 Jotas, champagne Bollinger y King Alexander III</h1>'
xpathSApply(htmlParse(x), "//div[contains(@class, 'cuerpo-not')]//h1", xmlValue)
# [1] "Jamón 5 Jotas, champagne Bollinger y King Alexander III"
我正在尝试从 html 代码中提取 header 1 (h1),如下所示:
<div class="cuerpo-not"><div mod="2323">
<h1>Jamón 5 Jotas, champagne Bollinger y King Alexander III</h1>
我正在使用函数 xpathSApply()
但它 returns 没有:
xpathSApply(webpage, "//div[contains(@class, 'cuerpo-not')]/h1", xmlValue)
# list()
但是当我使用相同的函数而不指定 header 的 class 时,它 returns class 以下的所有信息都采用这种格式:
xpathSApply(webpage, "//div[contains(@class, 'cuerpo-not')]", xmlValue)
# ;\n\t\t}\n\t}\n\t\n\t\n\tenviarNoticiaLeida_Site( 6916437,16 ) ;\n//]]>Jamón 5 Jotas, champagne Bollinger y King Alexander III\n\n\n\tPor J.M.
如何将信息提取为字符串?在其他网页中,以前的代码已经起作用。
我认为您只需要在查询中再添加一个 /
到 h1
,如 //h1
而不是 /h1
。
library(XML)
x <- '<div class="cuerpo-not"><div mod="2323">
<h1>Jamón 5 Jotas, champagne Bollinger y King Alexander III</h1>'
xpathSApply(htmlParse(x), "//div[contains(@class, 'cuerpo-not')]//h1", xmlValue)
# [1] "Jamón 5 Jotas, champagne Bollinger y King Alexander III"