将 .doc/.docx 转换为保留表格的文本
Convert .doc/.docx to text with preserving tables
我想将 doc/docx 个文件转换为文本文件。我的要求是 tables 应该保持原样。
我试过 python tika。它将行转换为列
例如 table 输入 doc/docx 文件
上面的table被转换成如下的文字
LANGUAGE
UNDERSTAND
LEARN
HINDI
YES
NO
MARATHI
YES
NO
ENGLISH
YES
NO
想要的输出是这样的(保留 table 格式)
LANGUAGE UNDERSTAND LEARN
HINDI YES NO
MARATHI YES NO
ENGLISH YES NO
如果可以,请告诉我。
正如@ilmiacs 所建议的那样,pandoc
可以为您做到这一点。
使用 python
你需要安装 pypandoc
.
测试文档:
import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))
给你:
显然,您还可以选择使用 subprocess
将其添加到命令行。
我想将 doc/docx 个文件转换为文本文件。我的要求是 tables 应该保持原样。
我试过 python tika。它将行转换为列
例如 table 输入 doc/docx 文件
上面的table被转换成如下的文字
LANGUAGE
UNDERSTAND
LEARN
HINDI
YES
NO
MARATHI
YES
NO
ENGLISH
YES
NO
想要的输出是这样的(保留 table 格式)
LANGUAGE UNDERSTAND LEARN
HINDI YES NO
MARATHI YES NO
ENGLISH YES NO
如果可以,请告诉我。
正如@ilmiacs 所建议的那样,pandoc
可以为您做到这一点。
使用 python
你需要安装 pypandoc
.
测试文档:
import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))
给你:
显然,您还可以选择使用 subprocess
将其添加到命令行。