在 Flask 应用程序中从 PDF 文件中提取文本

Question

我需要从用户上传的 .pdf 文件中提取文本。从 pdf 文件中获取文本的解决方案有很多，但据我所知，这些解决方案中，您需要将文件作为参数提供给打开文件，然后提取文本。另一方面，Flask 创建一个对象。要获取路径，我必须将其保存在目录中然后读取它，但是可能已经上传了多个文件，并且文件选择在这里将是一个问题。使用您可以创建一个内存流，但是我无法找到如何从该流中提取文本的解决方案。有人可以帮助我如何从 .pdf 文件中提取文本吗？

Answer 1

有一个名为 pymupdf 的软件包，我认为它可以满足您的需求。代码示例：

import fitz
fitz.open(stream=input_bytes, filetype="pdf")
all_text = ""
for page in fitz.pages():
    all_text += page.get_text("text")

在 Flask 应用程序中从 PDF 文件中提取文本

Extract text from PDF file in a Flask app

python

pdf

flask