使用 PDFX 将 PDF 转换为 XML http://pdfx.cs.man.ac.uk/

PDF to XML conversion using PDFX http://pdfx.cs.man.ac.uk/

我知道 PDFX 是一个 rule-based 系统,旨在重建 PDF 格式的学术文章的逻辑结构,而不管它们的格式样式如何。系统的输出是一个 XML 文档,根据标题、章节、表格、参考文献等描述输入文章的逻辑结构。

我一直在尝试在 python 上使用 PDFX 将一些 PDF 文件转换为 XML,但 http://pdfx.cs.man.ac.uk/ 没有响应。

我用于转换的代码是:

response = requests.post('http://pdfx.cs.man.ac.uk/', headers=headers, data=data)

还有吗?是否有任何其他选项可以转换重构学术文章结构的文件?

提前致谢!

根据我这几天一直在做的研究,我可以找到一个名为 GROBID 的类似工具。

首页:https://grobid.readthedocs.io/en/latest/

GitHub: https://github.com/kermitt2/grobid

是一款用于从学术文献中提取信息的机器学习软件