需要本地 SDK 工具来解析带有大表的原生 pdf 文件

Need local SDK tool for parsing native pdf file with large tables

用户需要在本地解析native-pdf(可选数据,不扫描,不需要OCR)。 pdf 文件可能有超过 400 页的大表格。有些表格可能没有清晰的边框。有什么 API 我可以用吗? 谢谢!

似乎有几个 PDF 解析器 API 可供您使用。 PDFTron 看起来很有前途,他们提供免费试用:https://www.pdftron.com/pdf-sdk/parsing-library/

DocParser 也可能对您有所帮助,https://docparser.com/features

我通过简单的 google 搜索找到了所有这些,因此您自己做一些研究可能会对您有所帮助。由于我们只能根据您问题中的信息提出广泛的建议。

现在我知道您不想要 API,我可能会建议您检查一下来自 nuget 的 ItextSharp。我过去曾多次使用过它,并且有很多关于如何使用它的堆栈溢出论坛。 https://www.nuget.org/packages/iTextSharp/5.5.13.1

编辑:抱歉,iTextSharp 似乎已被 iText 7 取代https://itextpdf.com/en/products/itext-7