Amazon Textract 与 Amazon Rekognition DetectText

Amazon Textract vs Amazon Rekognition DetectText

我如何决定何时使用 Amazon Textract 与 Amazon Rekognition 的 TextDetect 方法？

我的用例是从手机点击图片并将图像数据转换为文本并存储到 AWS RDS。

对于端到端的问题解决，Textract 的表现会更好，因为它对 OCR 的功能更全面。如果您只是想从野外拍摄的照片中提取一行或两行文本，例如街道标志或广告牌，（即：不是文档或表格）我建议使用 Amazon Rekognition。

Amazon Textract 是一项较新的 AWS 服务，它是作为针对文档和 PDF 图像中的 OCR（光学字符识别）问题的专用解决方案而创建的。虽然 Rekognition 是一种更通用的计算机视觉服务，但 Textract 有更多面向 OCR 的调整参数来优化准确有效地提取文本的过程。

开箱即用，如果您要做的只是检测文本和相关元数据（坐标、角度、置信度值），Rekognition DetectText 方法的执行可能与等效的 analyze_document Textract 中的方法，但是 Textract 提供了进一步的语义结构，有助于文本 curation/formatting 抽象其他形式的 post - 处理，开发人员传统上需要自己编写。

最后，在比较两种检测文本方法的成本时，与 Rekognition 相比，Textract 的成本要高一些（$1.50/1k 图像）（$1.00/1k 图像）。

如果图片中只有随机文本，则使用 Amazon Rekognition。它会在任何位置找到文本。

Amazon Textract 设计用于将纸质文档转换为有组织的数据。它可能不适用于随机图片（虽然我没有尝试过所以我不能确定！）。

Amazon Textract 与 Amazon Rekognition DetectText

Amazon Textract vs Amazon Rekognition DetectText

amazon-web-services

amazon-rekognition

amazon-textract