附加从文件中读取的 xml-节点 pretty_print 相邻节点

Appending an xml-node which is read from file breaks pretty_print for adjacent nodes

我正在使用 python 的 etree 库生成一个 XML 文件。生成文件中的一个节点是从现有 XML 文件中读取的。添加此元素会破坏前后节点的 pretty_print。

import xml.etree.cElementTree as ET
from lxml import etree

root = etree.Element("startNode")
subnode1 = etree.SubElement(root, "SubNode1")
subnode1Child1 = etree.SubElement(subnode1, "subNode1Child1")
etree.SubElement(subnode1Child1, "Child1")
etree.SubElement(subnode1Child1, "Child2")

f = open('/xml_testdata/ext_file.xml','r')
ext_xml = etree.fromstring(f.read())
ext_subnode = ext_xml.find("ExtNode")
subnode1.append(ext_subnode)

subnode1Child2 = etree.SubElement(subnode1, "subNode1Child2")
etree.SubElement(subnode1Child2, "Child1")
etree.SubElement(subnode1Child2, "Child2")

tree = etree.ElementTree(root)
tree.write("testfile.xml", xml_declaration=True, pretty_print=True)

结果如下:

<startNode>
    <SubNode1><subNode1Child1><Child1/><Child2/></subNode1Child1><ExtNode>
            <NodeFromExt>
                <SubNodeFromExt1/>
            </NodeFromExt>
            <NodeFromExt>
                <SubNodeFromExt2/>
                <AnotherSubNodeFromExt2>
                    <SubSubNode/>
                    <AllPrettyHere>
                        <Child/>
                    </AllPrettyHere>
                </AnotherSubNodeFromExt2>
            </NodeFromExt>
    </ExtNode>
    <subNode1Child2><Child1/><Child2/></subNode1Child2></SubNode1>
</startNode>

可读性不是很好,是吗?当 "subNodeChild" 包含比此示例更多的子节点时更糟糕!

不附加外部元素,它看起来像这样:

<startNode>
  <SubNode1>
    <subNode1Child1>
      <Child1/>
      <Child2/>
    </subNode1Child1>
    <subNode1Child2>
      <Child1/>
      <Child2/>
    </subNode1Child2>
  </SubNode1>
</startNode>

所以问题是追加了外部元素造成的!

有没有办法在不破坏 pretty_print 输出的情况下附加外部元素?

我已经能够通过使用 etree.SubElement 创建 "ExtNode" 并在其中附加元素来稍微减轻影响:

ext_node = etree.SubElement(subnode1, "ExtNode")
for element in ext_xml.findall("ExtNode/NodeFromExt")
  ext_node.append(element)

结果如下:

<startNode>
  <SubNode1>
    <subNode1Child1>
      <Child1/>
      <Child2/>
    </subNode1Child1>
    <ExtNode><NodeFromExt>
      <SubNodeFromExt1/>
        </NodeFromExt>
    <NodeFromExt>
      <SubNodeFromExt2/>
        <AnotherSubNodeFromExt2>
          <SubSubNode/>
          <AllPrettyHere>
            <Child/>
          </AllPrettyHere>
        </AnotherSubNodeFromExt2>
    </NodeFromExt>
  </ExtNode>
    <subNode1Child2>
      <Child1/>
      <Child2/>
    </subNode1Child2>
  </SubNode1>
</startNode>

不完美,但至少是人类可读的(这就是 pretty_print 的重点,对吧?)

为了满足我的强迫症,如果有办法得到一个完美格式化的文件,我仍然很感兴趣!

您可以通过使用在解析现有 XML 文件时删除可忽略空格的解析器对象来获得更好的打印输出。

而不是这个:

f = open('/xml_testdata/ext_file.xml','r')
ext_xml = etree.fromstring(f.read())

使用这个:

f = open('/xml_testdata/ext_file.xml', 'r')
parser = etree.XMLParser(remove_blank_text=True)
ext_xml = etree.fromstring(f.read(), parser)

另请参阅: