使用 PDFX 将 PDF 转换为 XML http://pdfx.cs.man.ac.uk/

PDF to XML conversion using PDFX http://pdfx.cs.man.ac.uk/

我知道 PDFX 是一个 rule-based 系统，旨在重建 PDF 格式的学术文章的逻辑结构，而不管它们的格式样式如何。系统的输出是一个 XML 文档，根据标题、章节、表格、参考文献等描述输入文章的逻辑结构。

我一直在尝试在 python 上使用 PDFX 将一些 PDF 文件转换为 XML，但 http://pdfx.cs.man.ac.uk/ 没有响应。

我用于转换的代码是：

response = requests.post('http://pdfx.cs.man.ac.uk/', headers=headers, data=data)

还有吗？是否有任何其他选项可以转换重构学术文章结构的文件？

提前致谢！

根据我这几天一直在做的研究，我可以找到一个名为 GROBID 的类似工具。

是一款用于从学术文献中提取信息的机器学习软件