使用 python-docx 检测损坏的文档文件
Detecting corrupt document files with python-docx
你能帮我解决这个问题吗?
从 python-docx (docx.Document(file_name)) 读取 .docx 文件时,如何检测 docx 文件是正确还是损坏。
我遇到过一些输入 docx 文件为空或损坏的情况。
我如何使用此库标记这些案例
python-docx
中没有这样的功能。部分原因是虽然可以根据 ISO 规范中的架构确定文件有效或无效,但每个客户端都允许存在许多小差异。允许的内容因客户而异;例如,LibreOffice 接受的一些东西会在 Microsoft Word 中产生修复错误。
确定这一点的唯一可靠方法是尝试使用目标客户端打开文件,对于 Microsoft Word,可能使用 VBA 等自动化。
你能帮我解决这个问题吗? 从 python-docx (docx.Document(file_name)) 读取 .docx 文件时,如何检测 docx 文件是正确还是损坏。
我遇到过一些输入 docx 文件为空或损坏的情况。 我如何使用此库标记这些案例
python-docx
中没有这样的功能。部分原因是虽然可以根据 ISO 规范中的架构确定文件有效或无效,但每个客户端都允许存在许多小差异。允许的内容因客户而异;例如,LibreOffice 接受的一些东西会在 Microsoft Word 中产生修复错误。
确定这一点的唯一可靠方法是尝试使用目标客户端打开文件,对于 Microsoft Word,可能使用 VBA 等自动化。