从 python 中的 word 文件中读取
Read from a word file in python
如何读取 python 中的 word (docx) 文件。我可以读取 txt 文件,但不能读取 MS Office word 文档。有什么建议吗?
查看这个允许读取 docx 文件的库 https://python-docx.readthedocs.io/en/latest/
您应该使用 PyPi 上提供的 python-docx 库。然后就可以使用下面的
doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
allText.append(docpara.text)
有几个软件包可以让您做到这一点。
检查
docx2txt (note that it does not seem to work with .doc
). As per this,似乎比python-docx 得到更多的信息。
来自原始文档:
import docx2txt
# extract text
text = docx2txt.process("file.docx")
# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir")
如何读取 python 中的 word (docx) 文件。我可以读取 txt 文件,但不能读取 MS Office word 文档。有什么建议吗?
查看这个允许读取 docx 文件的库 https://python-docx.readthedocs.io/en/latest/
您应该使用 PyPi 上提供的 python-docx 库。然后就可以使用下面的
doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
allText.append(docpara.text)
有几个软件包可以让您做到这一点。 检查
docx2txt (note that it does not seem to work with
.doc
). As per this,似乎比python-docx 得到更多的信息。 来自原始文档:
import docx2txt
# extract text
text = docx2txt.process("file.docx")
# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir")