Python lxml：如何为 XML 元素获取人类可读的 XPath？

Question

我有一个简短的XML文档：

<tag1 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xmlns="http://example.com/2009/namespace">
    <tag2>
        <tag3/>
        <tag3/>
    </tag2>
</tag1>

一个简短的 Python 程序像这样加载这个 XML 文件：

from lxml import etree

f = open( 'myxml.xml' )
tree = etree.parse(f)
MY_NAMESPACE = 'http://example.com/2009/namespace'
xpath = etree.XPath( '/f:tag1/f:tag2/f:tag3', namespaces = { 'f': MY_NAMESPACE } )
# get first element that matches xpath
elem = xpath(tree)[0]
# get xpath for an element 
print tree.getpath(elem)

我希望通过这段代码获得一个有意义的、人类可读的 xpath，然而，我得到的却是一个像 /*/*/*[1].

这样的字符串

知道是什么原因造成的吗？我该如何诊断这个问题？

注意：使用 Python 2.7.9 和 lxml 2.3

Answer 1

看起来 getpath()（底层 libxml2 调用 xmlGetNodePath）为命名空间文档生成位置表达式 xpath。评论部分的用户 mzjn 指出，自 lxml v3.4.0 以来，函数 getelementpath() 生成具有完全限定标签名称（使用 "Clark notation"）的人类可读的 xpath。此函数通过从节点到根遍历树而不是使用 libxml2 API 调用来生成 xpath。

同理，如果没有lxml v3.4+可以自己写一个树遍历函数

Python lxml：如何为 XML 元素获取人类可读的 XPath？

Python lxml: how to get human-readable XPath for XML element?

python

xpath

lxml