如何在服务器上转换 pdf 文件并从中提取数据?

How to convert pdf file and extract data from them on a server?

我们的考试结果以 pdf 格式上传到我们大学的网站上,其中包含所有大学学生的成绩,包含 100-150 页的 pdf ..一个人上传了一个应用商店,我们可以在其中看到我们的考试结果而不是下载 pdf 并搜索我们的注册号......当我通过 gmail 问那个人你是怎么做到的时,他给了我一个提示 - 他说我们基本上在我们的服务器上处理 PDF 并将结果提供给通过我们自己的应用程序 API。我想知道这是什么意思以及它是如何完成的..我想学习这个???

也许您可以采用以下一种方法:

  1. 使用程序处理PDF提取文本。使用付费的 Adob​​e Acrobat 之类的程序或 PyPDF2 之类的免费编程库。如果您使用的是 python,则可以通过键入 "pip install PyPDF2"

  2. 来安装它
  3. 处理数据并放入某种形式的集合中,即 map/dictionary。

  4. 创建一个 Web API,也许使用 SpringBoot 并制作一个简单的控制器来查找请求。我认为您仍然可以在 Heroku

  5. 上免费托管它
  6. 编写您的 android 应用程序以访问 Restful API 并根据您的条件进行调用。