Rvest 抓取子节点但用 NA 填充缺失值
Rvest scraping child nodes but filling missing values with NA
我正在尝试从 sec 网站上抓取一些数据。每个父节点都有包含感兴趣文本的子节点。但是,在某些情况下,特定的子节点不存在。例如在这个 link:
urll <- "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml"
父节点有728个。每个父节点都有许多条目,这些条目是具有特定标签的子节点。这是一个完整条目的示例(共 728 个条目):
<infoTable>
<nameOfIssuer>APPLE INC</nameOfIssuer>
<titleOfClass>COM</titleOfClass>
<cusip>037833100</cusip>
<value>1486</value>
<shrsOrPrnAmt>
<sshPrnamt>11200</sshPrnamt>
<sshPrnamtType>SH</sshPrnamtType>
</shrsOrPrnAmt>
<putCall>Put</putCall>
<investmentDiscretion>SOLE</investmentDiscretion>
<votingAuthority>
<Sole>11200</Sole>
<Shared>0</Shared>
<None>0</None>
</votingAuthority>
</infoTable>
在此示例中,“putCall”标签可能存在也可能不存在。当它存在时,我希望能够得到相关的文本,所以在这个例子中是“Put”。然而对于这个 link,728 个父节点中只有 8 个具有“putCall”节点。我想用 NA 填充没有“putCall”节点的节点,这样我就可以将每个标签的 728 个条目强制转换为数据框。因此,例如,这是我迄今为止受 .
启发而尝试的方法
library(polite)
library(rvest)
library(purrr)
library(tidyverse)
library(httr)
session <- bow("https://www.sec.gov/")
urll <- "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml"
test <- session %>%
nod(urll) %>%
scrape(verbose = FALSE) %>%
html_elements(xpath = "//*[local-name()='infoTable']") %>% # select enclosing nodes
# iterate over each parent node, pulling out desired parts and coerce to data.frame
# not the complete list
map_df(
~ list(
name_of_issuer = html_elements(.x, xpath = "//*[local-name()='nameOfIssuer']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
},
title_of_class = html_elements(.x, xpath = "//*[local-name()='titleOfClass']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
},
put_or_call = html_elements(.x, xpath = "//*[local-name()='putCall']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
}))
失败并显示错误消息:
Error: Can't recycle `name_of_issuer` (size 728) to match `put_or_call` (size 8).
似乎 NA 填充不适用于“putCall”节点,它只有 returns 8 个条目的列表。
关于我做错了什么以及如何解决它有什么建议吗?
非常感谢!
如果我只是使用 httr,那么我可以传入一个有效的 UA header 和 re-write 你的代码来代替使用 data.frame 调用,而不是列表,这样我就可以return N/A 其中值不存在。
将 html_elements
换成 html_element
。
您还需要修改 xpath 以避免为每一行重复第一个节点值。
library(tidyverse)
library(httr)
headers <- c("User-Agent" = "Safari/537.36")
r <- httr::GET(url = "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml", httr::add_headers(.headers = headers))
r %>%
content() %>%
html_elements(xpath = "//*[local-name()='infoTable']") %>% # select enclosing nodes
# iterate over each parent node, pulling out desired parts and coerce to data.frame
# not the complete list
map_df(
~ data.frame(
name_of_issuer = html_element(.x, xpath = ".//*[local-name()='nameOfIssuer']") %>%
html_text(),
title_of_class = html_element(.x, xpath = ".//*[local-name()='titleOfClass']") %>%
html_text(),
put_or_call = html_element(.x, xpath = ".//*[local-name()='putCall']") %>%
html_text()
)
)
我正在尝试从 sec 网站上抓取一些数据。每个父节点都有包含感兴趣文本的子节点。但是,在某些情况下,特定的子节点不存在。例如在这个 link:
urll <- "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml"
父节点有728个。每个父节点都有许多条目,这些条目是具有特定标签的子节点。这是一个完整条目的示例(共 728 个条目):
<infoTable>
<nameOfIssuer>APPLE INC</nameOfIssuer>
<titleOfClass>COM</titleOfClass>
<cusip>037833100</cusip>
<value>1486</value>
<shrsOrPrnAmt>
<sshPrnamt>11200</sshPrnamt>
<sshPrnamtType>SH</sshPrnamtType>
</shrsOrPrnAmt>
<putCall>Put</putCall>
<investmentDiscretion>SOLE</investmentDiscretion>
<votingAuthority>
<Sole>11200</Sole>
<Shared>0</Shared>
<None>0</None>
</votingAuthority>
</infoTable>
在此示例中,“putCall”标签可能存在也可能不存在。当它存在时,我希望能够得到相关的文本,所以在这个例子中是“Put”。然而对于这个 link,728 个父节点中只有 8 个具有“putCall”节点。我想用 NA 填充没有“putCall”节点的节点,这样我就可以将每个标签的 728 个条目强制转换为数据框。因此,例如,这是我迄今为止受
library(polite)
library(rvest)
library(purrr)
library(tidyverse)
library(httr)
session <- bow("https://www.sec.gov/")
urll <- "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml"
test <- session %>%
nod(urll) %>%
scrape(verbose = FALSE) %>%
html_elements(xpath = "//*[local-name()='infoTable']") %>% # select enclosing nodes
# iterate over each parent node, pulling out desired parts and coerce to data.frame
# not the complete list
map_df(
~ list(
name_of_issuer = html_elements(.x, xpath = "//*[local-name()='nameOfIssuer']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
},
title_of_class = html_elements(.x, xpath = "//*[local-name()='titleOfClass']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
},
put_or_call = html_elements(.x, xpath = "//*[local-name()='putCall']") %>%
html_text() %>%
{
if (length(.) == 0)
NA
else
.
}))
失败并显示错误消息:
Error: Can't recycle `name_of_issuer` (size 728) to match `put_or_call` (size 8).
似乎 NA 填充不适用于“putCall”节点,它只有 returns 8 个条目的列表。
关于我做错了什么以及如何解决它有什么建议吗?
非常感谢!
如果我只是使用 httr,那么我可以传入一个有效的 UA header 和 re-write 你的代码来代替使用 data.frame 调用,而不是列表,这样我就可以return N/A 其中值不存在。
将 html_elements
换成 html_element
。
您还需要修改 xpath 以避免为每一行重复第一个节点值。
library(tidyverse)
library(httr)
headers <- c("User-Agent" = "Safari/537.36")
r <- httr::GET(url = "https://www.sec.gov/Archives/edgar/data/1002784/000139834421003391/fp0061633_13fhr-table.xml", httr::add_headers(.headers = headers))
r %>%
content() %>%
html_elements(xpath = "//*[local-name()='infoTable']") %>% # select enclosing nodes
# iterate over each parent node, pulling out desired parts and coerce to data.frame
# not the complete list
map_df(
~ data.frame(
name_of_issuer = html_element(.x, xpath = ".//*[local-name()='nameOfIssuer']") %>%
html_text(),
title_of_class = html_element(.x, xpath = ".//*[local-name()='titleOfClass']") %>%
html_text(),
put_or_call = html_element(.x, xpath = ".//*[local-name()='putCall']") %>%
html_text()
)
)