Python/R：当并非所有节点都包含所有变量时，从 XML 生成数据帧？

Question

考虑以下 XML 示例

library(xml2)

myxml <- read_xml('
<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>
')

我想从这个 XML 中获取一个（R 或 Pandas）数据框，其中包含列 name 和 hobby。

但是，如您所见，存在对齐问题，因为第二个节点中缺少 hobby，而约翰有两个爱好。

在 R 中，我知道如何一次提取一个特定值，例如使用 xml2 如下：

myxml%>% 
  xml_find_all("//name") %>% 
  xml_text()

myxml%>% 
  xml_find_all("//hobby") %>% 
  xml_text()

但是如何在数据框中正确对齐这些数据？也就是说，我如何获得如下数据框（注意我是如何加入 | 约翰的两个爱好）：

# A tibble: 2 × 3
    name           hobby            skill
   <chr>           <chr>            <chr>
1   John          tennis|golf       python
2 Robert            <NA>            R

在 R 中，我更喜欢使用 xml2 和 dplyr 的解决方案。在 Python 中，我想以 Pandas 数据框结束。此外，在我的 xml 中还有更多我想要解析的变量。我想要一个解决方案，它允许用户解析额外的变量而不会对代码造成太多干扰。

谢谢！

编辑：感谢大家提供这些出色的解决方案。所有这些都非常好，有很多细节，很难挑选出最好的。再次感谢！

Answer 1

在 R 中，我可能会使用

library(XML)
lst <- xmlToList(xmlParse(myxml)[['/data']])
(df <- data.frame(t(sapply(lst, function(x) {
  c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))
}))) )
#       name           hobby
# 1    John   tennis | golf 
# 2  Robert

并可能使用 df[df==""] <- NA 和 trimws() 进行一些润色以删除空格。

或者：

library(xml2)
library(dplyr)
`%|||%` <- function (x, y) if (length(x)==0) y else x 
(df <- data_frame(
  names = myxml %>% 
    xml_find_all("/data/obs/name") %>% 
    xml_text(trim=TRUE), 
  hobbies = myxml %>% 
    xml_find_all("/data/obs") %>% 
    lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)
))
# # A tibble: 2 × 2
#    names   hobbies
#    <chr>    <list>
# 1   John <chr [2]>
# 2 Robert <chr [1]>

Answer 2

XML

创建一个可以处理缺失或多个节点的函数，然后将其应用于 obs 个节点。我添加了 id 列，这样您就可以看到如何也使用 xmlGetAttr（对 obs 节点使用 "."，在其他节点上使用前导 "."，因此它相对于集合中的当前节点).

xpath2 <-function(x, ...){
    y <- xpathSApply(x, ...)
    ifelse(length(y) == 0, NA,  paste(trimws(y), collapse=", "))
}  
obs <- getNodeSet(doc, "//obs")   
data.frame( id = sapply(obs, xpath2, ".", xmlGetAttr, "ID"),
          name = sapply(obs, xpath2, ".//name", xmlValue),
       hobbies = sapply(obs, xpath2, ".//hobby", xmlValue),
         skill = sapply(obs, xpath2, ".//skill", xmlValue))

  id   name      hobbies  skill
1  a   John tennis, golf python
2  b Robert         <NA>      R

xml2

我不经常使用 xml2，但如果有重复标签，可能会获取 obs 节点然后应用 xml_find_all 而不是使用 xml_find_first。

obs <-  xml_find_all(myxml, "//obs")  
lapply(obs, xml_find_all, ".//hobby")

data_frame(
     name = xml_find_first(obs, ".//name") %>% xml_text(trim=TRUE),
  hobbies = sapply(obs, function(x)  paste(xml_text( xml_find_all(x, ".//hobby"), trim=TRUE), collapse=", " ) ),
    skill = xml_find_first(obs, ".//skill") %>% xml_text(trim=TRUE)
)

# A tibble: 2 x 3
    name      hobbies  skill
   <chr>        <chr>  <chr>
1   John tennis, golf python
2 Robert                   R

我使用 NCBI ftp 中的 medline17n0853.xml 文件测试了这两种方法。这是一个包含 30,000 个 PubmedArticle 节点的 280 MB 文件，XML 包用了 102 秒来解析 pubmed id、期刊并组合多种出版物类型。 xml2 代码运行 30 分钟然后我杀了它，所以这可能不是最好的解决方案。

Answer 3

pandas

import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET


xml_txt = """<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>"""

etree = ET.fromstring(xml_txt)

def obs2series(o):
    d = defaultdict(list)
    [d[c.tag].append(c.text.strip()) for c in o.getchildren()];
    return pd.Series(d).str.join('|')

pd.DataFrame([obs2series(o) for o in etree.findall('obs')])

         hobby    name   skill
0  tennis|golf    John  python
1          NaN  Robert       R

工作原理

从字符串构建一个元素树。否则做类似 et = ET.parse('my_data.xml')
etree.findall('obs') returns xml 结构中的元素列表 'obs' 标签
我将这些都传递给 pd.Series 构造函数 obs2series
在 obs2series 中，我循环遍历一个 'obs' 元素中的所有子节点。
defaultdict 默认为 list 意味着我可以附加到一个值，即使之前没有看到该键。
我最终得到了一个列表字典。我将其传递给 pd.Series 以获得一系列列表。
使用 pd.Series.str.join('|') 我将其转换为我想要的一系列字符串。
我一开始循环观察的列表理解现在是一个系列列表，准备传递给 pd.DataFrame 构造函数。

Answer 4

不需要硬编码变量的通用 R 解决方案。
使用 xml2 和 tidyverse 的 purrr:

library(xml2)
library(purrr)

myxml %>% 
  xml_find_all('obs') %>%      
  # Enter each obs and return a df
  map_df(~{

    # Scan names
    node_names <- .x %>% 
      xml_children() %>% 
      xml_name() %>%
      unique()        

    # Remember ob
    ob <- .x

    # Enter each node
    map(node_names, ~{

      # Find similar nodes
      node <- xml_find_all(ob, .x) %>%
        xml_text(trim = TRUE) %>%
        paste0(collapse = '|') %>% 
        'names<-'(.x)
        # ^ we need to name the element to 
        #   overwrite it with its 'sibilings'

    }) %>% 
      # Return an 'ob' vector
      flatten()        
  })

#> # A tibble: 2 Ã— 3
#>     name       hobby  skill
#>    <chr>       <chr>  <chr>
#> 1   John tennis|golf python
#> 2 Robert        <NA>      R

它的作用：

它'enters'每个obs，在那个obs中找到并存储节点名称。
对于每个节点，在 obs 中找到所有相似的节点，折叠它们并存储在列表中。
展平列表，覆盖同名元素。
rbind（隐含在 map_df() 中）每个 'flatted' 列表到结果 data.frame.

数据：

myxml <- read_xml('
                  <data>
                  <obs ID="a">
                  <name> John </name>
                  <hobby> tennis </hobby>
                  <hobby> golf </hobby>
                  <skill> python  </skill>
                  </obs>
                  <obs ID="b">
                  <name> Robert </name>
                  <skill> R </skill>
                  </obs>
                  </data>
                  ')

Python/R：当并非所有节点都包含所有变量时，从 XML 生成数据帧？

Python/R: generate dataframe from XML when not all nodes contain all variables?

python

xml

r

pandas

xml2

XML

xml2

它的作用：

数据：