从 python 中的 word 文件中读取

Read from a word file in python

如何读取 python 中的 word (docx) 文件。我可以读取 txt 文件,但不能读取 MS Office word 文档。有什么建议吗?

查看这个允许读取 docx 文件的库 https://python-docx.readthedocs.io/en/latest/

您应该使用 PyPi 上提供的 python-docx 库。然后就可以使用下面的

doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
    allText.append(docpara.text)

有几个软件包可以让您做到这一点。 检查

  1. python-docx.

  2. docx2txt (note that it does not seem to work with .doc). As per this,似乎比python-docx 得到更多的信息。 来自原始文档:

import docx2txt

# extract text
text = docx2txt.process("file.docx")

# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir") 
  1. textract (which works via docx2txt).

  2. 由于 .docx 文件只是 .zip 扩展名发生变化的文件,this 显示了如何访问内容。 这是与 .doc 文件的显着差异,也是上述部分(或全部)不适用于 .doc 的原因。 在这种情况下,您可能必须先转换 doc -> docxantiword是一个选项。