用于检测图像中文本的 aws sagemaker

aws sagemaker for detecting text in an image

我知道最好为此使用 aws Rekognition。但是，当我用我拥有的图像（有点像上面带有标签的小容器）进行尝试时，它似乎效果不佳。文本拼写错误且支离破碎。

我是 ML 和 sagemaker 的新手。据我所知，用例似乎是用于预测和图像分类。我找不到关于训练用于检测图像中文本的模型的方法。可以用 Sagemaker 来做吗？如果有人指出正确的方向，我将不胜感激。

不同的服务都将为光学字符识别 (OCR) 提供不同级别的抽象，具体取决于您最喜欢使用管道的哪些部分，以及您更喜欢抽象什么。

这里有几个选项：

Rekognition 将提供具有 DetectText 功能的开箱即用 OCR。但是，在当前情况下，您似乎需要对图像执行某种预处理以获得更好的结果。这可以通过您选择的任何方法（Lambda、EC2 等）完成。
SageMaker 是一种工具，可让您轻松训练和部署自己的模型（任何类型）。 SageMaker 有两个主要选项：
1. 自己动手的选择：如果你想走标记自己的数据、收集大量训练集和训练的路线您自己的 OCR 模型，这可以通过 SageMaker 训练和部署您自己的模型来实现。
2. 现有的 OCR 算法：有许多算法都对 OCR 有不同的潜在权衡。一个例子是 Tesseract。使用它，您可以将预处理步骤与文本检测更紧密地结合起来。
Amazon Textract（预览版）是一种专门构建的专用 OCR 服务，可根据您的图像外观和您选择的设置提供更好的性能。

我个人建议先研究 pre-processing for OCR 看看它是否提高了 Rekognition 的准确性，然后再转向其他选项。即使它没有提高 Rekognition 的准确度，它对大多数其他选项仍然有价值！