我是否必须将 PDF 文件存储在 Azure Blob 存储中以进行 OCR 并对其编制索引?

Do I have to store PDF files in Azure Blob Storage to OCR and index them?

我正在测试 Azure 搜索来为我的网站编制索引以进行搜索。

我已经创建了一个索引,我可以从网站页面获取信息并将它们推送到索引。

我的问题是关于索引 PDF 文件中的内容,包括文本和使用认知服务从 PDF 文件中的图像中提取文本。

在与索引 PDF 文件相关的教程中,似乎假定 PDF 文件位于可由搜索索引器(如 Azure Blob 存储)访问的位置。因此,我似乎必须获取我网站上已有的所有 PDF 文件,并将它们存储在 Azure Blob 存储中(以某种方式将它们的原始 URL 保存在某处),以便我可以为它们编制索引并提取内容使用数据源 - 索引器 - index.

我正在寻找的功能是您访问我的网站,搜索可能位于 PDF 文件文本或图像中的文本,作为搜索结果,您将获得原始 URL PDF 文件(不是 Azure 存储 URL)。

是否可以使用 Azure REST API 直接从我的网站(包括认知服务)索引 PDF 文件的内容?或者我必须先将这些文件放在 Azure Blob 存储中,如果我这样做了,我将如何 preserve/save URL 以便当索引器运行并提取内容时我可以添加原始文件 URL到索引?

目前,Azure 搜索支持以下平台作为数据源:

  • Blob 存储
  • Table 存储
  • Azure Cosmos DB
  • Azure SQL 数据库和 SQL Azure VM 上的服务器

因此,如果您想要为您的 pdf 建立索引,您应该将它们存储在 Azure 存储中,以便 Azure 搜索可以精确地确定内容并为它们建立索引。

如果您想将原始文件 URL 包含在您的索引中,您可以为您的 pdf blob 添加一个 user-defined metadata,即“originalUrl”:

这样它将被 Azure 搜索索引:

希望对您有所帮助。