如何使用 Azure Functions 提取 PDF 文件的文本?

How to extract the text of a PDF file using Azure Functions?

我想创建一个 Azure 函数,它会在文件上传到 blob 存储并提取 PDF 文件的文本时随时触发。我也不知道什么是最好的图书馆。

我发现 this post 展示了如何使用 PdfSharp 提取 PDF 文件的文本,但我似乎无法使用它,因为这是我第一次使用 Azure Functions。

这个问题过于宽泛,可能会被关闭。但这里有一些提示。

  1. 首先安装 Azure 存储模拟器,以便您可以在本地创建 Blob 以进行测试。搞定here
  2. 创建 Azure Functions v2。设置一个 Blob 存储触发器,以便无论何时向本地存储写入内容,都会调用该触发器。 Blob 触发器描述 here
  3. 在将 Blob 添加到本地模拟器时,一旦您可以在 Azure Functions 中遇到断点,您将需要获取字节并使用您选择的 PDF ripper 提取文本。有很多,有些是免费的,有些是付费的。提出一个建议并给出代码示例可能 运行 数千个单词,因此选择和使用哪一个取决于您。