在 python 中将 pdf 文件转换为 docx

Convert pdf files to docx in python

我正在做一个 python 项目,但作为项目的一部分,我正在尝试制作一个 python 文件,输入 pdf 文件和输出(docx 文件或文本)和反之亦然。 另外,如果可能的话,我会支持将 pdf 转换为 jpg 和将 jpg 转换为 pdf。 我该怎么做 有没有人可以帮助我?

pip 安装 pdf2docx https://pypi.org/project/pdf2docx/

选项 1

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

选项2

from pdf2docx import parse
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
parse(pdf_file, docx_file, start=0, end=None)