从 PDF 文件中的所需页面中提取文本

Extract text from required pages in PDF file

我正在尝试使用表单识别器 - Azure 认知服务从 pdf 文件中提取文本。我正在使用自定义模型，通过我的模型训练此服务，然后尝试提取数据。

我的 PDF 通常有 1 页以上。但我有兴趣从第一页中提取文本。其余所有页面都不重要。

那么有什么方法可以训练我的系统通过提供页码从选定页面中提取文本吗？

此致，

马杜

表单识别器 API 目前在训练模型时不支持文档的页面范围。您可能必须使用第 3 方 tools/APIs 预处理文档，以便仅发送您需要用于训练模型的页面。