上传 PDF 文件并通过 Textract 进行分析,而无需将文件上传到 S3 Bucket

Upload PDF File and analyze by Textract without uploading the file in S3 Bucket

我计划从 laravel 创建一个程序,您可以在其中上传 pdf 文件并使用 Textract OCR 对其进行分析。我希望用户上传 pdf 文件并使用 textract 对其进行分析,而无需将 PDF 上传到 S3 存储桶中。我的问题是,这可能吗?或者我真的需要先在 s3 存储桶中上传,然后才能通过 textract 进行分析?因为我在互联网上看到的大部分教程 pdf 文件都在 s3 存储桶中。

谢谢

PDF 文件必须上传到 S3 存储桶。这并不意味着它必须永远存在。例如,您可以在存储桶上添加一个生命周期规则,作为在 1 天后删除所有文件的保护措施,以防您 运行 在处理后删除文件时遇到问题。

顺便说下流程是异步的:

  • 将文件上传到 S3。
  • 调用 Textract API 以请求分析 S3 对象,提供将发布结果的 SNS 主题。
  • 当结果发布到队列时,您可以通过轮询获取消息,但最好的解决方案是 subscribe a lambda to the topic that is invoked when a message is received. 然后您的 lambda 可以处理 JSON 响应,根据需要存储信息, 并删除 S3 存储桶中的对象。