Google 视觉 API 文档文本 base64 字符串中的多个图像

Question

我使用 Google Vision API OCR（文档文本检测）从扫描文档（base64 字符串）中获取文本。它适用于一张图片。但是我怎样才能发送不止一张图片，例如文档的第二页。

我试过合并 base64 字符串，但没有成功。

var base64ImagesArrayConcarved = base64ImagesArray.join('')

Answer 1

Cloud Vision API 有方法 files.asyncBatchAnnotate。这使得可以在同一个请求中发送一堆文件。要添加单个文件，请使用 async file annotation 请求。在批处理请求中包含两个图像的示例如下：

{
  "requests":[
    {
      "inputConfig": {
        "gcsSource": {
          "uri": "gs://<your bucket name>/image1.jpg"
        },
        "mimeType": "image/jpg"
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ],
      "outputConfig": {
        "gcsDestination": {
          "uri": "gs://<your bucket name>/output/"
        }
      }
    },
    {
      "inputConfig": {
        "gcsSource": {
          "uri": "gs://<your bucket name>/image2.jpg"
        },
        "mimeType": "image/jpg"
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ],
      "outputConfig": {
        "gcsDestination": {
          "uri": "gs://<your bucket name>/output/"
        }
      }
    }
  ]
}

如果您专门使用 pdf 文件，我发现解释了如何使用 asyncBatchAnnotate 发送请求。

Google 视觉 API 文档文本 base64 字符串中的多个图像

Google Vision API Document Text multiple images in base64 String

google-cloud-vision