如何将 pdf 文档转换为 xml 并获取包含 table 数据的部分。

How to convert the pdf document to xml and get the section which contains the table data.

有一个pdf文档，我想把它转换成xml或html.

由于pdf文档中包含一些table，当它转换为xml或html,我分不清哪个是table数据，哪个是文本。

我想获取tables个数据来存储数据库。

xpdf或者mupdf可以吗？

谢谢。

PDF（通常）不包含有关文本的信息。文字就是文字，table.

中没有识别文字的信息

因此，任何 PDF 阅读应用程序都没有 可靠的 方法来将文本识别为 table 的一部分。所以 MuPDF 将无法告诉你这个。

当然，您可以尝试自己应用启发式方法，以相同的垂直偏移量识别行中的文本，并查找以常规 x 偏移量水平间隔的文本。

你可以看看免费表格 https://tabula.technology/

"A tool to liberate data tables locked inside PDF files".

这是一个网络应用程序。您可以在 linux 或 windows 盒子上安装 tabula 并在其他电脑上使用它。