在 google automl 实体提取中发送 pdf 而不是文本片段

Send pdf instead of TextSnippet in goole automl enrity extraction

我使用 google AutoML 实体提取器创建了自定义处理器并训练了一些 pdf。 Pdf 的实际上包含照片身份证。我能够在他们的 UI 中对其进行测试,并且能够正确提取实体。现在我使用他们的 Java 客户端库来使用下面给出的代码来完成它。这是示例

https://github.com/googleapis/java-automl/blob/b4c760c01efbd2174d93af85c5fbab3c09eee9f2/samples/snippets/src/main/java/com/example/automl/LanguageEntityExtractionPredict.java

在这里我看到他们将文本内容传递到图书馆而不是我想发送 PDF 内容。我不想使用 google 云存储桶,而是想在本地加载文件并将其发送到实体提取器。我尝试使用 Document class 如下

Document.parseDelimitedFrom(FileInputStream("test.pdf")) 但它给了我一个错误。

非常感谢任何帮助。

Document.parseDelimitedFrom(FileInputStream("test.pdf")) 抛出错误,因为 parseDelimitedFrom() 方法需要一个 protobuf 消息来解析而不是本地 PDF 文件的 InputStream。话虽这么说,目前,没有规定发送本地文件进行预测,如此 REST API documentation. The DocumentInputConfig 参数仅支持 GCS 源。


功能请求

我已在 Google 的问题跟踪器中将此要求作为功能请求提出。 问题可以在这里找到- Issue #218865096. You can STAR the issue to receive automatic updates and give it traction by referring to this link。另外,请注意,功能请求没有时间表,也没有实施保证。有关此功能请求的所有通信都将在问题跟踪器上完成。