网站是否必须保存图像才能从中获取文本？

Question

我正在尝试建立一个网站，用户需要在该网站上上传带有文字的图片。现在该网站应该从图像中获取此文本。我的问题是我是否需要保存图像才能获取此文本？如果是的话我应该把它保存在哪里？问这个问题的原因是我可以在网站上显示图像而不保存它但没有得到文本。

Answer 1

如果您能够在用户加载图像后执行触发过程，则可以使用某种 OCR 机制来提取文本，从而避免图像存储。

例如，Tika project 允许仅通过运行 .jar:

从 images/documents 中提取文本

java -jar tika-app-1.25.jar -t uploadedImage.png

似乎是一个实时项目，作为它的最后一个版本（1.25) was deployed one month ago. It uses Tesseract 执行 OCR 处理，所以你也应该在你的主机上安装它。

从1.17版本开始支持图像识别

Apache Tika 1.17 has been released! This release includes new support for automatic image captioning

有关 Tika 项目的更多信息，请参见 homepage and also in its javadoc。

为了避免同步行为，您还可以将图像存储在某种类型的队列中或仅存储在您常用的数据库中，稍后再进行处理；这将允许您异步执行操作并仅在有限的时间内存储图像，直到对它们应用 OCR 机制。

处理后，您还可以压缩图像并保留它们，以便对原始内容进行某种备份（以防出现故障）。

Does a website have to save an image in order to get text from it?