如何将 pdf 文档转换为 xml 并获取包含 table 数据的部分。

How to convert the pdf document to xml and get the section which contains the table data.

有一个pdf文档,我想把它转换成xmlhtml.

由于pdf文档中包含一些table,当它转换为xmlhtml,我分不清哪个是table数据,哪个是文本。

我想获取tables个数据来存储数据库。

xpdf或者mupdf可以吗?

谢谢。

PDF(通常)不包含有关文本的信息。文字就是文字,table.

中没有识别文字的信息

因此,任何 PDF 阅读应用程序都没有 可靠的 方法来将文本识别为 table 的一部分。所以 MuPDF 将无法告诉你这个。

当然,您可以尝试自己应用启发式方法,以相同的垂直偏移量识别行中的文本,并查找以常规 x 偏移量水平间隔的文本。

你可以看看免费表格 https://tabula.technology/

"A tool to liberate data tables locked inside PDF files".

这是一个网络应用程序。 您可以在 linux 或 windows 盒子上安装 tabula 并在其他电脑上使用它。