读取或保存上传到 Flask 的 PDF 文件

Read or save a PDF file uploaded to Flask

我正在使用表单将多个文件上传到 Flask,我在 Flask 后端获取文件对象没有问题,但问题是我想读取 PDF 文件以从中提取文本。我无法对从表单收到的文件对象执行此操作,我想到的另一种方法是将文件保存在本地存储中,然后在我使用它创建的 file.save(path, filename) 时再次读取它们一个名为 - filename.pdf

的空文本文件
app=Flask(__name__)


@app.route('/')
def index():
    return '''
        <form method='POST' action='/saveData'>
        <input type='file' name='testReport'>
        <input type='submit'>
        </form>
    '''

@app.route('/saveData', methods=['POST'])
def saveData():
    if 'testReport' in request.files:
        testReport= request.files['testReport']
        #This isn't working, a text file is saved with the same name ,ending in pdf
        testReport.save(os.path.join(app.config['UPLOAD_FOLDER'], testReport.filename))       
        return f'<h1>File saved {testReport.filename}</h1>'
        
    else:
        return 'Not done'

PDF文件上传到flask后如何操作?

PDF文件上传到flask后如何操作?

您应该像对待普通 PDF 文件一样对待它们 - 如果它们是通过 Flask 应用程序上传的或使用其他方法收集的,则此处无关紧要。如你

想要阅读 PDF 文件以从中提取文本。

您应该使用 PDF 文本提取工具,例如 pdfminer.six,因为这是您需要先安装的外部模块:pip install pdfminer.six

您可以直接按照提到的烧瓶自己的方式进行[here]

这很容易处理 pdf。只是不要忘记在 ALLOWED_EXTENSIONS

中包含您的扩展程序