使用 google 云进行图像分类、裁剪和 OCR

Using google cloud for image classification, cropping and OCR

请允许我问一个比较新手的问题。到目前为止，我一直在使用像 imagemagick or GOCR 这样的本地工具来执行这项工作，但那是相当老套的，我被敦促“转向 google 云 AI”。

设置

我有一个不同类型的各种文档（如 JPG 和 PDF）的（训练）数据集，我打算根据某些特征（如流行颜色、重复布局）对它们进行分类，例如如 invoice type 1、invoice type 2、not an invoice。在第二步中，我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。

我设想的架构

在现代平台即服务 (pass) 中，我已经设置了一个 UI 可以上传新文件的地方。然后将它们本地存储在具有文件名的目录中（或 MongoDB 中）。上传时间戳、用户、原始文件名等元信息存储在数据库中。
然后应将新上传的文件提交到 google 云进行分类步骤，并返回标签以保存在数据库中。
文档页面应该自动裁剪，即删除黑色或白色边距，很可能还有 google 云。 crop的参数要持久化到数据库中。
以防万一发票，应针对文档的某些区域执行 OCR（同样由 google 云），例如从页面中间到裁剪页面上部 10% 右边距的边界框。 OCR 的结果应该再次持久化到本地。

问题

我似乎缺少正确的搜索词来弄清楚如何使用 google 云。是否有 google-API（例如 REST），我可以用来上传并返回步骤 2 到 4 的结果？

我认为你最好的选择是使用 Document AI (REST API and Libraries).

使用 Document AI，您可以：

将图像转换为文本
对文件进行分类
分析和提取实体

此外，对于您的用例，我们有一个新的 Document AI 功能，该功能仍处于预览阶段并且访问权限有限，即 Invoice parser。

发票解析器 类似于 Form parser 但用于发票而不是表格。查看 发票解析器 页面，您会明白我所说的预览和有限访问的意思。

AFIK，没有任何用于图像编辑的 GCP 工具。

使用 google 云进行图像分类、裁剪和 OCR

Using google cloud for image classification, cropping and OCR

ocr

classification

text-classification

google-cloud-platform

设置

我设想的架构

问题