有没有办法将 Document AI OCR 响应解析为 pdf 格式?

Is there a way to parse the Document AI OCR response into pdf format?

我正在将扫描的 PDF 传递到 Google Cloud Document AI OCR。 JSON 响应(或使用 Python API 时返回的文档对象)包含结构化格式的 PDF 内容,如 here 所述。我也希望能够输出 PDF 文件(或者 XML 如果这样更容易)。有这样的功能吗?任何有关可能实施的提示都将受到赞赏。

注意:在我执行任务之前,PDF 已经通过其他工具进行了 OCR,但质量不如 Document AI OCR。

谢谢

如果有人正在寻找这个,请分享。 我找到了这个存储库 gcv2hocr which has a script to convert the Google Cloud Vision response (for image input) to hOCR format. The hOCR output can then be converted to other formats, including PDF using hocr-tools.

我想调整此代码以与 DocumentAI 响应一起工作不会很困难。