将 .doc/.docx 转换为保留表格的文本

Convert .doc/.docx to text with preserving tables

我想将 doc/docx 个文件转换为文本文件。我的要求是 tables 应该保持原样。

我试过 python tika。它将行转换为列

例如 table 输入 doc/docx 文件

上面的table被转换成如下的文字

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO

想要的输出是这样的(保留 table 格式)

 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO

如果可以,请告诉我。

正如@ilmiacs 所建议的那样,pandoc 可以为您做到这一点。
使用 python 你需要安装 pypandoc.
测试文档:

import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))

给你:

显然,您还可以选择使用 subprocess 将其添加到命令行。