Python/R:当并非所有节点都包含所有变量时,从 XML 生成数据帧?
Python/R: generate dataframe from XML when not all nodes contain all variables?
考虑以下 XML
示例
library(xml2)
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
我想从这个 XML 中获取一个(R 或 Pandas)数据框,其中包含列 name
和 hobby
。
但是,如您所见,存在对齐问题,因为第二个节点中缺少 hobby
,而约翰有两个爱好。
在 R 中,我知道如何一次提取一个特定值,例如使用 xml2
如下:
myxml%>%
xml_find_all("//name") %>%
xml_text()
myxml%>%
xml_find_all("//hobby") %>%
xml_text()
但是如何在数据框中正确对齐这些数据?也就是说,我如何获得如下数据框(注意我是如何加入 |
约翰的两个爱好):
# A tibble: 2 × 3
name hobby skill
<chr> <chr> <chr>
1 John tennis|golf python
2 Robert <NA> R
在 R 中,我更喜欢使用 xml2
和 dplyr
的解决方案。在 Python 中,我想以 Pandas 数据框结束。此外,在我的 xml 中还有更多我想要解析的变量。我想要一个解决方案,它允许用户解析额外的变量而不会对代码造成太多干扰。
谢谢!
编辑:感谢大家提供这些出色的解决方案。所有这些都非常好,有很多细节,很难挑选出最好的。再次感谢!
在 R 中,我可能会使用
library(XML)
lst <- xmlToList(xmlParse(myxml)[['/data']])
(df <- data.frame(t(sapply(lst, function(x) {
c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))
}))) )
# name hobby
# 1 John tennis | golf
# 2 Robert
并可能使用 df[df==""] <- NA
和 trimws()
进行一些润色以删除空格。
或者:
library(xml2)
library(dplyr)
`%|||%` <- function (x, y) if (length(x)==0) y else x
(df <- data_frame(
names = myxml %>%
xml_find_all("/data/obs/name") %>%
xml_text(trim=TRUE),
hobbies = myxml %>%
xml_find_all("/data/obs") %>%
lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)
))
# # A tibble: 2 × 2
# names hobbies
# <chr> <list>
# 1 John <chr [2]>
# 2 Robert <chr [1]>
XML
创建一个可以处理缺失或多个节点的函数,然后将其应用于 obs
个节点。我添加了 id 列,这样您就可以看到如何也使用 xmlGetAttr
(对 obs 节点使用 "."
,在其他节点上使用前导 "."
,因此它相对于集合中的当前节点).
xpath2 <-function(x, ...){
y <- xpathSApply(x, ...)
ifelse(length(y) == 0, NA, paste(trimws(y), collapse=", "))
}
obs <- getNodeSet(doc, "//obs")
data.frame( id = sapply(obs, xpath2, ".", xmlGetAttr, "ID"),
name = sapply(obs, xpath2, ".//name", xmlValue),
hobbies = sapply(obs, xpath2, ".//hobby", xmlValue),
skill = sapply(obs, xpath2, ".//skill", xmlValue))
id name hobbies skill
1 a John tennis, golf python
2 b Robert <NA> R
xml2
我不经常使用 xml2
,但如果有重复标签,可能会获取 obs
节点然后应用 xml_find_all
而不是使用 xml_find_first
。
obs <- xml_find_all(myxml, "//obs")
lapply(obs, xml_find_all, ".//hobby")
data_frame(
name = xml_find_first(obs, ".//name") %>% xml_text(trim=TRUE),
hobbies = sapply(obs, function(x) paste(xml_text( xml_find_all(x, ".//hobby"), trim=TRUE), collapse=", " ) ),
skill = xml_find_first(obs, ".//skill") %>% xml_text(trim=TRUE)
)
# A tibble: 2 x 3
name hobbies skill
<chr> <chr> <chr>
1 John tennis, golf python
2 Robert R
我使用 NCBI ftp 中的 medline17n0853.xml
文件测试了这两种方法。这是一个包含 30,000 个 PubmedArticle 节点的 280 MB 文件,XML 包用了 102 秒来解析 pubmed id、期刊并组合多种出版物类型。 xml2 代码 运行 30 分钟然后我杀了它,所以这可能不是最好的解决方案。
pandas
import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET
xml_txt = """<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>"""
etree = ET.fromstring(xml_txt)
def obs2series(o):
d = defaultdict(list)
[d[c.tag].append(c.text.strip()) for c in o.getchildren()];
return pd.Series(d).str.join('|')
pd.DataFrame([obs2series(o) for o in etree.findall('obs')])
hobby name skill
0 tennis|golf John python
1 NaN Robert R
工作原理
- 从字符串构建一个元素树。否则做类似
et = ET.parse('my_data.xml')
etree.findall('obs')
returns xml
结构中的元素列表 'obs'
标签
- 我将这些都传递给
pd.Series
构造函数 obs2series
- 在
obs2series
中,我循环遍历一个 'obs'
元素中的所有子节点。
defaultdict
默认为 list
意味着我可以附加到一个值,即使之前没有看到该键。
- 我最终得到了一个列表字典。我将其传递给
pd.Series
以获得一系列列表。
- 使用
pd.Series.str.join('|')
我将其转换为我想要的一系列字符串。
- 我一开始循环观察的列表理解现在是一个系列列表,准备传递给
pd.DataFrame
构造函数。
不需要硬编码变量的通用 R 解决方案。
使用 xml2
和 tidyverse 的 purrr
:
library(xml2)
library(purrr)
myxml %>%
xml_find_all('obs') %>%
# Enter each obs and return a df
map_df(~{
# Scan names
node_names <- .x %>%
xml_children() %>%
xml_name() %>%
unique()
# Remember ob
ob <- .x
# Enter each node
map(node_names, ~{
# Find similar nodes
node <- xml_find_all(ob, .x) %>%
xml_text(trim = TRUE) %>%
paste0(collapse = '|') %>%
'names<-'(.x)
# ^ we need to name the element to
# overwrite it with its 'sibilings'
}) %>%
# Return an 'ob' vector
flatten()
})
#> # A tibble: 2 × 3
#> name hobby skill
#> <chr> <chr> <chr>
#> 1 John tennis|golf python
#> 2 Robert <NA> R
它的作用:
- 它'enters'每个
obs
,在那个obs中找到并存储节点名称。
- 对于每个节点,在
obs
中找到所有相似的节点,折叠它们并存储在列表中。
- 展平列表,覆盖同名元素。
rbind
(隐含在 map_df()
中)每个 'flatted' 列表到结果 data.frame
.
数据:
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
考虑以下 XML
示例
library(xml2)
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
我想从这个 XML 中获取一个(R 或 Pandas)数据框,其中包含列 name
和 hobby
。
但是,如您所见,存在对齐问题,因为第二个节点中缺少 hobby
,而约翰有两个爱好。
在 R 中,我知道如何一次提取一个特定值,例如使用 xml2
如下:
myxml%>%
xml_find_all("//name") %>%
xml_text()
myxml%>%
xml_find_all("//hobby") %>%
xml_text()
但是如何在数据框中正确对齐这些数据?也就是说,我如何获得如下数据框(注意我是如何加入 |
约翰的两个爱好):
# A tibble: 2 × 3
name hobby skill
<chr> <chr> <chr>
1 John tennis|golf python
2 Robert <NA> R
在 R 中,我更喜欢使用 xml2
和 dplyr
的解决方案。在 Python 中,我想以 Pandas 数据框结束。此外,在我的 xml 中还有更多我想要解析的变量。我想要一个解决方案,它允许用户解析额外的变量而不会对代码造成太多干扰。
谢谢!
编辑:感谢大家提供这些出色的解决方案。所有这些都非常好,有很多细节,很难挑选出最好的。再次感谢!
在 R 中,我可能会使用
library(XML)
lst <- xmlToList(xmlParse(myxml)[['/data']])
(df <- data.frame(t(sapply(lst, function(x) {
c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))
}))) )
# name hobby
# 1 John tennis | golf
# 2 Robert
并可能使用 df[df==""] <- NA
和 trimws()
进行一些润色以删除空格。
或者:
library(xml2)
library(dplyr)
`%|||%` <- function (x, y) if (length(x)==0) y else x
(df <- data_frame(
names = myxml %>%
xml_find_all("/data/obs/name") %>%
xml_text(trim=TRUE),
hobbies = myxml %>%
xml_find_all("/data/obs") %>%
lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)
))
# # A tibble: 2 × 2
# names hobbies
# <chr> <list>
# 1 John <chr [2]>
# 2 Robert <chr [1]>
XML
创建一个可以处理缺失或多个节点的函数,然后将其应用于 obs
个节点。我添加了 id 列,这样您就可以看到如何也使用 xmlGetAttr
(对 obs 节点使用 "."
,在其他节点上使用前导 "."
,因此它相对于集合中的当前节点).
xpath2 <-function(x, ...){
y <- xpathSApply(x, ...)
ifelse(length(y) == 0, NA, paste(trimws(y), collapse=", "))
}
obs <- getNodeSet(doc, "//obs")
data.frame( id = sapply(obs, xpath2, ".", xmlGetAttr, "ID"),
name = sapply(obs, xpath2, ".//name", xmlValue),
hobbies = sapply(obs, xpath2, ".//hobby", xmlValue),
skill = sapply(obs, xpath2, ".//skill", xmlValue))
id name hobbies skill
1 a John tennis, golf python
2 b Robert <NA> R
xml2
我不经常使用 xml2
,但如果有重复标签,可能会获取 obs
节点然后应用 xml_find_all
而不是使用 xml_find_first
。
obs <- xml_find_all(myxml, "//obs")
lapply(obs, xml_find_all, ".//hobby")
data_frame(
name = xml_find_first(obs, ".//name") %>% xml_text(trim=TRUE),
hobbies = sapply(obs, function(x) paste(xml_text( xml_find_all(x, ".//hobby"), trim=TRUE), collapse=", " ) ),
skill = xml_find_first(obs, ".//skill") %>% xml_text(trim=TRUE)
)
# A tibble: 2 x 3
name hobbies skill
<chr> <chr> <chr>
1 John tennis, golf python
2 Robert R
我使用 NCBI ftp 中的 medline17n0853.xml
文件测试了这两种方法。这是一个包含 30,000 个 PubmedArticle 节点的 280 MB 文件,XML 包用了 102 秒来解析 pubmed id、期刊并组合多种出版物类型。 xml2 代码 运行 30 分钟然后我杀了它,所以这可能不是最好的解决方案。
pandas
import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET
xml_txt = """<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>"""
etree = ET.fromstring(xml_txt)
def obs2series(o):
d = defaultdict(list)
[d[c.tag].append(c.text.strip()) for c in o.getchildren()];
return pd.Series(d).str.join('|')
pd.DataFrame([obs2series(o) for o in etree.findall('obs')])
hobby name skill
0 tennis|golf John python
1 NaN Robert R
工作原理
- 从字符串构建一个元素树。否则做类似
et = ET.parse('my_data.xml')
etree.findall('obs')
returnsxml
结构中的元素列表'obs'
标签- 我将这些都传递给
pd.Series
构造函数obs2series
- 在
obs2series
中,我循环遍历一个'obs'
元素中的所有子节点。 defaultdict
默认为list
意味着我可以附加到一个值,即使之前没有看到该键。- 我最终得到了一个列表字典。我将其传递给
pd.Series
以获得一系列列表。 - 使用
pd.Series.str.join('|')
我将其转换为我想要的一系列字符串。 - 我一开始循环观察的列表理解现在是一个系列列表,准备传递给
pd.DataFrame
构造函数。
不需要硬编码变量的通用 R 解决方案。
使用 xml2
和 tidyverse 的 purrr
:
library(xml2)
library(purrr)
myxml %>%
xml_find_all('obs') %>%
# Enter each obs and return a df
map_df(~{
# Scan names
node_names <- .x %>%
xml_children() %>%
xml_name() %>%
unique()
# Remember ob
ob <- .x
# Enter each node
map(node_names, ~{
# Find similar nodes
node <- xml_find_all(ob, .x) %>%
xml_text(trim = TRUE) %>%
paste0(collapse = '|') %>%
'names<-'(.x)
# ^ we need to name the element to
# overwrite it with its 'sibilings'
}) %>%
# Return an 'ob' vector
flatten()
})
#> # A tibble: 2 × 3
#> name hobby skill
#> <chr> <chr> <chr>
#> 1 John tennis|golf python
#> 2 Robert <NA> R
它的作用:
- 它'enters'每个
obs
,在那个obs中找到并存储节点名称。 - 对于每个节点,在
obs
中找到所有相似的节点,折叠它们并存储在列表中。 - 展平列表,覆盖同名元素。
rbind
(隐含在map_df()
中)每个 'flatted' 列表到结果data.frame
.
数据:
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')