在 Flask 应用程序中从 PDF 文件中提取文本

Extract text from PDF file in a Flask app

我需要从用户上传的 .pdf 文件中提取文本。从 pdf 文件中获取文本的解决方案有很多,但据我所知,这些解决方案中,您需要将文件作为参数提供给打开文件,然后提取文本。另一方面,Flask 创建一个对象。要获取路径,我必须将其保存在目录中然后读取它,但是可能已经上传了多个文件,并且文件选择在这里将是一个问题。使用 您可以创建一个内存流,但是我无法找到如何从该流中提取文本的解决方案。有人可以帮助我如何从 .pdf 文件中提取文本吗?

有一个名为 pymupdf 的软件包,我认为它可以满足您的需求。代码示例:

import fitz
fitz.open(stream=input_bytes, filetype="pdf")
all_text = ""
for page in fitz.pages():
    all_text += page.get_text("text")