如何为 Azure 认知服务实时提取文本?

How can I extract Text in real-time for Azure Cognitive Services?

我正在寻求构建一个应用程序来针对文档执行各种基于文本的认知服务功能。

但是,我似乎在第一个障碍上失败了,即首先从文档中获取文本。

我知道 OCR 和表单识别器都对此执行变体(分别为“文本识别”和“文本提取”)- 但对于标准文档(例如 Word / Excel / PDF)这个感觉像是大材小用。

认知搜索包括“文档破解”过程 - 但我需要实时处理文档,所以不想在 Azure 中处理索引。

Azure(认知服务或其他)中是否有更简单的“获取文本”功能可供我使用?

不想真正想做的是,必须为每种不同的文件类型(例如 PDF / DOCX / TXT / PNG / MSG) 并计算出每个 API 我需要使用哪个

提前致谢!

A​​FAIK,除了从认知技能(Azure 认知搜索)中提取文档外,没有现成可用的工具:

https://docs.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction.

您还可以构建自己的管道以使用 Tika.NET:

提取文本

https://github.com/KevM/tikaondotnet