使用带有 xml2 的管道运算符写入 XML

Write XML using pipe operator with xml2

xml2 包允许用户创建 XML 文档。我正在尝试使用管道运算符 %>% 创建文档以添加 child 和同级节点的各种组合。我无法弄清楚如何在 child 节点内创建一个 child 节点,该节点紧随原始 child 的兄弟节点(参见下面的示例)。

是否可以 "rise" 上一层以创建更多节点,或者它们是否必须在链式命令之外创建?

我想要的

library(xml2)
x1 <- read_xml("<parent><child>1</child><child><grandchild>2</grandchild></child><child>3</child><child>4</child></parent>")
message(x1)
#> <?xml version="1.0" encoding="UTF-8"?>
#> <parent>
#>  <child>1</child>
#>  <child>
#>    <grandchild>2</grandchild>
#>  </child>
#>  <child>3</child>
#>  <child>4</child>
#> </parent>

我创建的是错误的

library(magrittr)
library(xml2)
x2 <- xml_new_document()
x2 %>% 
  xml_add_child("parent") %>%
  xml_add_child("child", 1) %>%
  xml_add_sibling("child", 4, .where="after") %>%
  xml_add_sibling("child", 3) %>%
  xml_add_sibling("child", .where="before") %>%
  xml_add_child("grandchild", 2)
message(x2)
#> <?xml version="1.0" encoding="UTF-8"?>
#> <parent>
#>  <child>1</child>
#>  <child>4</child>
#>  <child>
#>    <grandchild>2</grandchild>
#>  </child>
#>  <child>3</child>
#> </parent>

使用XML包的解决方案

如果使用 XML 包,这实际上相当简单。

library(XML)
x2 <- newXMLNode("parent")
invisible(newXMLNode("child", 1, parent=x2))
invisible(newXMLNode("child", newXMLNode("grandchild", 2), parent=x2))
invisible(newXMLNode("child", 3, parent=x2))
invisible(newXMLNode("child", 4, parent=x2))
x2
#> <?xml version="1.0" encoding="UTF-8"?>
#> <parent>
#>  <child>1</child>
#>  <child>
#>    <grandchild>2</grandchild>
#>  </child>
#>  <child>3</child>
#>  <child>4</child>
#> </parent>

首先我要说我认为这通常是个坏主意。 xml2 使用指针工作,这意味着它具有引用语义 ("pass by reference"),这不是 R 中的典型行为。xml2 中的函数通过在 XML 树上产生副作用而不是 return 像函数式编程中的值一样 ("pass by value")。

这意味着管道基本上是错误的原则。您只需要按正确顺序修改对象的一系列步骤。

也就是说,你可以这样做:

library("magrittr")
library("xml2")
x2 <- xml_new_document()
x2 %>% 
  xml_add_child(., "parent") %>%
{
  xml_add_child(., "child", 1, .where = "after")
  (xml_add_child(., "child") %>% xml_add_child("grandchild", 2))
  xml_add_child(., "child", 3, .where = "after")
  xml_add_child(., "child", 4, .where = "after")
}
message(x2)
## <?xml version="1.0" encoding="UTF-8"?>
## <parent>
##   <child>1</child>
##   <child>
##     <grandchild>2</grandchild>
##   </child>
##   <child>3</child>
##   <child>4</child>
## </parent>

. 告诉 %>% 在后续调用 xml_add_child() 时将 "parent" 节点放置在何处。中间的 () 括号表达式利用了这样一个事实,即您要通过管道传输到 "child" 节点,然后将该子节点通过管道传输到孙节点。

另一个选项,如果你真的想在整个过程中使用管道,是使用 %T>% 管道,而不是 %>% 管道(或者更确切地说,两者的混合)。两者的区别如下:

> 1:3 %>% mean() %>% str()
 num 2
> 1:3 %T>% mean() %>% str()
 int [1:3] 1 2 3

%T>% 管道将左侧表达式的值压入右侧表达式,但进一步将其压入后续表达式。这意味着您可以在管道中间调用函数来处理它们的副作用,并继续在管道中向前传递较早的对象引用。

这就是您在说 "rise up a level" 时要尝试做的事情 - 也就是说,备份到管道中的先前值并从那里开始工作。所以你只需要 %T>% 管道直到你到达你想要 %>% 管道(例如,创建孙子)然后 return 到 %T>% 管道到继续向前携带父对象引用。一个例子:

x3 <- xml_new_document()
x3 %>% 
  xml_add_child("parent") %T>%
    xml_add_child("child", 1, .where = "after") %T>%
    {xml_add_child(., "child") %>% xml_add_child("grandchild", 2)} %T>%
    xml_add_child("child", 3, .where = "after") %>%
    xml_add_child("child", 4, .where = "after")
message(x3)
## <?xml version="1.0" encoding="UTF-8"?>
## <parent>
##   <child>1</child>
##   <child>
##     <grandchild>2</grandchild>
##   </child>
##   <child>3</child>
##   <child>4</child>
## </parent>

注意最后的 %>% 而不是 %T>%。如果您将 %>% 换成 %T>%,则整个管道的值将仅为 "parent" 节点树:

{xml_document}
<parent>
[1] <child>1</child>
[2] <child>\n  <grandchild>2</grandchild>\n</child>
[3] <child>3</child>
[4] <child>4</child>

(这 - 同样 - 最终并不重要,因为我们实际上是在使用副作用构建 x3,但它会将父节点树打印到控制台,这可能会造成混淆。)

同样,考虑到尴尬,我建议完全不要使用管道,但这取决于您。更好的方法是只保留要附加子项的每个对象,然后每次都再次引用它。和第一个例子一样,将父节点保存为p,跳过所有管道,在示例代码中使用.的地方只引用p