Python 上的 Docx (xml) 文件解析错误 'charmap' 编解码器无法解码位置 7618 中的字节 0x98:字符映射到 <undefined>

Docx (xml) file parsing error on Python 'charmap' codec can't decode byte 0x98 in position 7618: character maps to <undefined>

我正在尝试解析 docx 文件。我先解压缩它,然后尝试用 with open(..) 读取 Document.xml 文件并引发错误“'charmap' 编解码器无法解码位置 7618 中的字节 0x98:字符映射到”。 XML是“UTF-8”编码:

错误:

我写了下面的代码:

        with open(self.tempDir + self.CONFIG['main_xml']) as xml_file:
            self.dom_xml = etree.parse(xml_file)

我试图强制编码为 UTF-8,但我无法正确读取 etree.fromstring(..)

7618 符号(来自错误)是:

请帮助我。如何正确读取xml文件? 谢谢

这在您的 file:

上没有错误
import zipfile
import xml.etree.ElementTree as ET

zipfile.ZipFile('file.docx').extractall()
root = ET.parse('word/document.xml').getroot()