使用 R 从 meta itemprop 中提取内容
Extracting content from within meta itemprop using R
我正在尝试从以下内容部分中提取文本。
<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa's gross domestic output
(GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>
我对从 "datePublished" 和 "description" 中提取时间和日期特别感兴趣。现在有趣的是我可以提取 "description" 文本,使用
xpathSApply(story2, "//head/meta[@name=\"description\"]/@content")
但不是 datePublished
,即使我使用相同的语法只产生 NULL
结果。
我无法解释这一点,想知道是否有人知道为什么xpathSApply
在提取描述时不提取datePublished
,以及正确的格式是什么。我也无法通过 grep 使用子字符串操作提取它。
这是您正在尝试的代码吗,因为我认为它应该是:
'<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa\'s gross domestic output (GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>' -> foo
library(XML)
bar <- xmlParse(foo)
datePublished <- xpathSApply(bar, "//meta[@itemprop='datePublished']/@content")
description <- xpathSApply(bar, "//meta[@itemprop='description']/@content")
我正在尝试从以下内容部分中提取文本。
<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa's gross domestic output
(GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>
我对从 "datePublished" 和 "description" 中提取时间和日期特别感兴趣。现在有趣的是我可以提取 "description" 文本,使用
xpathSApply(story2, "//head/meta[@name=\"description\"]/@content")
但不是 datePublished
,即使我使用相同的语法只产生 NULL
结果。
我无法解释这一点,想知道是否有人知道为什么xpathSApply
在提取描述时不提取datePublished
,以及正确的格式是什么。我也无法通过 grep 使用子字符串操作提取它。
这是您正在尝试的代码吗,因为我认为它应该是:
'<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa\'s gross domestic output (GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>' -> foo
library(XML)
bar <- xmlParse(foo)
datePublished <- xpathSApply(bar, "//meta[@itemprop='datePublished']/@content")
description <- xpathSApply(bar, "//meta[@itemprop='description']/@content")