如何在 python 中检索 MS WORD(2003) 文档文件

How to retrieve MS WORD(2003) doc file in python

我正在做一个与分析相关的项目。为此,我需要从 MS WORD 中计算一些行的值。如果它是 .docx 扩展名,那么对我来说没有问题,但是当它是 .doc 扩展名时,我无法读取这些文件。我能为此做什么?我正在使用 python 3.6 并安装了 .docx 模块。期待一个好的答案。提前致谢!

您可以使用 win32com 执行此操作:

import win32com

from win32com.client import gencache, constants, Dispatch
# that's the magic part
gencache.EnsureModule('{00020905-0000-0000-C000-000000000046}', 0, 8, 3)

app = Dispatch("Word.Application.8")
# open a document
app.Documents.Open("MyDocument.doc")

现在你可以用这个文件做任何你想做的事了。 如果带有 gencache 的行给你一个错误,那么你需要先创建 COM 模块,方法是执行:

lib\site-packages\win32com\client\makepy.py

这将在您需要 select 'Microsoft Word Object Library' 的地方弹出一个 Window。