Azure 认知搜索 - 来自外部数据源(无 Azure Blob)的索引二进制数据(MS Office 文件)

Azure Cognitive Search - Index binary data (MS Office files) from an external data source (no Azure Blob)

我正在尝试了解是否有一种方法以及如何实现它来索引不驻留在 Azure Blob 存储中但在其他非 azure 数据中的二进制数据(主要是 MS Office 文档和 PDF)来源。

我找到的最接近的示例将文件复制到 Azure blob 容器,然后添加一个技能集以从那里索引这些文档。

我想绕过 Azure blob 容器,直接推送文档元数据和二进制内容。

有什么建议或例子可以参考吗?

谢谢

I would like to bypass the Azure blob container, and push the doc metadata as well as the binary content directly.

根据可用文档 here,我认为您的数据不可能存在于 Azure 之外。您的数据必须驻留在可由索引器访问的 Azure 数据源中,截至目前,索引器可以是 Azure blob 存储、Azure table 存储、Azure SQL 数据库和 Azure Cosmos DB 之一。

将数据推送到索引时,您可以使用自定义技能和内置技能定义自定义技能集。有文档提取技能可以满足您的需求。参见:

https://docs.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction