xml.etree.ElementTree.ParseError -- 异常处理未捕获错误

xml.etree.ElementTree.ParseError -- exception handling not catching errors

我正在尝试解析 an xml document,其中有许多未定义的实体,当我尝试 运行 我的代码时会导致 ParseError,如下所示:

import xml.etree.ElementTree as ET

tree = ET.parse('cic.fam_lat.xml')
root = tree.getroot()

while True:
    try:
        for name in root.iter('name'):
            print(root.tag, name.text)
    except xml.etree.ElementTree.ParseError:
        pass

for name in root.iter('name'):
    print(name.text)

上述错误的示例如下,并且有许多未定义的实体都会抛出相同的错误:

我只想忽略它们,而不是进入并编辑每一个。我应该如何编辑我的异常处理以捕获这些错误实例? (即,我做错了什么?)

有一些解决方法,例如定义自定义实体,建议在:

  • Python ElementTree support for parsing unknown XML entities?

但是,如果您能够切换到 lxml,它的 XMLParser() 可以在 "recover" 模式下工作 "ignore" 未定义的实体:

import lxml.etree as ET

parser = ET.XMLParser(recover=True)
tree = ET.parse('cic.fam_lat.xml', parser=parser)

for name in root.iter('name'):
    print(root.tag, name.text)

(为我工作 - 打印了标签名称和文本)

您可以像这样简单地通过引用 ParseError 来捕获异常:

try:
    # Something neat

except ET.ParseError:
    # Exception catch

这是在 Python 3.7.10,Windows 10.