如何将 pdf 文档转换为 xml 并获取包含 table 数据的部分。
How to convert the pdf document to xml and get the section which contains the table data.
有一个pdf文档,我想把它转换成xml或html.
由于pdf文档中包含一些table,当它转换为xml或html,我分不清哪个是table数据,哪个是文本。
我想获取tables个数据来存储数据库。
xpdf或者mupdf可以吗?
谢谢。
PDF(通常)不包含有关文本的信息。文字就是文字,table.
中没有识别文字的信息
因此,任何 PDF 阅读应用程序都没有 可靠的 方法来将文本识别为 table 的一部分。所以 MuPDF 将无法告诉你这个。
当然,您可以尝试自己应用启发式方法,以相同的垂直偏移量识别行中的文本,并查找以常规 x 偏移量水平间隔的文本。
你可以看看免费表格
https://tabula.technology/
"A tool to liberate data tables locked inside PDF files".
这是一个网络应用程序。
您可以在 linux 或 windows 盒子上安装 tabula 并在其他电脑上使用它。
有一个pdf文档,我想把它转换成xml或html.
由于pdf文档中包含一些table,当它转换为xml或html,我分不清哪个是table数据,哪个是文本。
我想获取tables个数据来存储数据库。
xpdf或者mupdf可以吗?
谢谢。
PDF(通常)不包含有关文本的信息。文字就是文字,table.
中没有识别文字的信息因此,任何 PDF 阅读应用程序都没有 可靠的 方法来将文本识别为 table 的一部分。所以 MuPDF 将无法告诉你这个。
当然,您可以尝试自己应用启发式方法,以相同的垂直偏移量识别行中的文本,并查找以常规 x 偏移量水平间隔的文本。
你可以看看免费表格 https://tabula.technology/
"A tool to liberate data tables locked inside PDF files".
这是一个网络应用程序。 您可以在 linux 或 windows 盒子上安装 tabula 并在其他电脑上使用它。