从扫描的发票中提取发票编号、发票日期等 pdf (Java)

Extract invoice number, incoice date etc. from scanned invoice as pdf (Java)

我不想提取发票的发票号码、发票日期、税额和价格,Java。发票被扫描并保存为 PDF。有谁知道一个相对简单的可能性吗?

完全有可能。根据您愿意付出多少努力,以及您打算使用什么样的环境,您至少可以做两件事:

  • 使用 iText7 Core 从您的 pdf 文件中提取文本,然后使用正则表达式在该文本中查找内容

  • 使用 pfd2Data(iText7 的附加组件)将发票(或其他 pdf 文档)与模板文档匹配。如果匹配成功,pdf2Data 会生成一个 xml 文件,其中包含来自 pdf(您在模板中指定)的所有数据。从 xml 数据源中提取数据应该是微不足道的。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates