使用 AWS Textract 进行 OCR 的 pdf 页面数量是否有限制?

Is there any limit on number of pdf pages to be OCRed using AWS Textract?

我正在使用 AWS Textract 对基于图像的 pdf 进行 OCRing

我的每个 PDF 都有 60 多页

但是当我尝试对 pdf 文件进行 OCR 时,它只对每个文件的前 4 页执行此操作。

AWS 提取的 pdf 文件中的页数是否有限制

我找到了这个https://docs.aws.amazon.com/textract/latest/dg/limits.html

但是没有提到页数限制!!

谁知道pdf页数有没有限制?

如果是这样,我如何对整个 60 页以上的文件进行 OCR?

textract 的硬性限制是 1000 页或 PDF 的 500mb。

我认为你的问题与textract的批响应有关。您必须查看 json 输出中的密钥“NextToken”是否已填充,如果是,您必须使用该令牌发出另一个请求。