使用 google 云进行图像分类、裁剪和 OCR
Using google cloud for image classification, cropping and OCR
请允许我问一个比较新手的问题。到目前为止,我一直在使用像 imagemagick or GOCR 这样的本地工具来执行这项工作,但那是相当老套的,我被敦促“转向 google 云 AI”。
设置
我有一个不同类型的各种文档(如 JPG 和 PDF)的(训练)数据集,我打算根据某些特征(如流行颜色、重复布局)对它们进行分类,例如如 invoice type 1
、invoice type 2
、not an invoice
。在第二步中,我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。
我设想的架构
- 在现代平台即服务 (pass) 中,我已经设置了一个 UI 可以上传新文件的地方。然后将它们本地存储在具有文件名的目录中(或 MongoDB 中)。上传时间戳、用户、原始文件名等元信息存储在数据库中。
- 然后应将新上传的文件提交到 google 云进行分类步骤,并返回标签以保存在数据库中。
- 文档页面应该自动裁剪,即删除黑色或白色边距,很可能还有 google 云。 crop的参数要持久化到数据库中。
- 以防万一发票,应针对文档的某些区域执行 OCR(同样由 google 云),例如从页面中间到裁剪页面上部 10% 右边距的边界框。 OCR 的结果应该再次持久化到本地。
问题
我似乎缺少正确的搜索词来弄清楚如何使用 google 云。是否有 google-API(例如 REST),我可以用来上传并返回步骤 2 到 4 的结果?
我认为你最好的选择是使用 Document AI (REST API and Libraries).
使用 Document AI,您可以:
- 将图像转换为文本
- 对文件进行分类
- 分析和提取实体
此外,对于您的用例,我们有一个新的 Document AI 功能,该功能仍处于预览阶段并且访问权限有限,即 Invoice parser。
发票解析器 类似于 Form parser 但用于发票而不是表格。查看 发票解析器 页面,您会明白我所说的预览和有限访问的意思。
AFIK,没有任何用于图像编辑的 GCP 工具。
请允许我问一个比较新手的问题。到目前为止,我一直在使用像 imagemagick or GOCR 这样的本地工具来执行这项工作,但那是相当老套的,我被敦促“转向 google 云 AI”。
设置
我有一个不同类型的各种文档(如 JPG 和 PDF)的(训练)数据集,我打算根据某些特征(如流行颜色、重复布局)对它们进行分类,例如如 invoice type 1
、invoice type 2
、not an invoice
。在第二步中,我想对每个文档的某些预定义区域进行 OCR 并提取例如发送发票的公司地址和日期。
我设想的架构
- 在现代平台即服务 (pass) 中,我已经设置了一个 UI 可以上传新文件的地方。然后将它们本地存储在具有文件名的目录中(或 MongoDB 中)。上传时间戳、用户、原始文件名等元信息存储在数据库中。
- 然后应将新上传的文件提交到 google 云进行分类步骤,并返回标签以保存在数据库中。
- 文档页面应该自动裁剪,即删除黑色或白色边距,很可能还有 google 云。 crop的参数要持久化到数据库中。
- 以防万一发票,应针对文档的某些区域执行 OCR(同样由 google 云),例如从页面中间到裁剪页面上部 10% 右边距的边界框。 OCR 的结果应该再次持久化到本地。
问题
我似乎缺少正确的搜索词来弄清楚如何使用 google 云。是否有 google-API(例如 REST),我可以用来上传并返回步骤 2 到 4 的结果?
我认为你最好的选择是使用 Document AI (REST API and Libraries).
使用 Document AI,您可以:
- 将图像转换为文本
- 对文件进行分类
- 分析和提取实体
此外,对于您的用例,我们有一个新的 Document AI 功能,该功能仍处于预览阶段并且访问权限有限,即 Invoice parser。
发票解析器 类似于 Form parser 但用于发票而不是表格。查看 发票解析器 页面,您会明白我所说的预览和有限访问的意思。
AFIK,没有任何用于图像编辑的 GCP 工具。