针对具有不同格式的文档查找一个特定信息的最佳 OCR 方法

Best OCR approach on documents with different formats to find one specific information

很遗憾,由于涉及机密资料,我无法给出更具体的解释。

问题

所以我有一些文档通常包含相同的信息,但格式不同。在大多数情况下,我要查找的值靠近文档中的关键字。 OCR 本身由 Google Cloud Vision API 处理,但处理不同格式的最佳方法是什么?

我的想法

... 是训练一个分类器来检测我正在处理的格式,然后选择合适的方法来找到目标值,我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些算法,例如目标值在哪里,它看起来像什么等等

解决此问题的最佳 ML 方法是什么,或者您有什么想法?

作为数据类型的示例: 假设我有来自 20 家不同超市的收据,我正在寻找总成本,其中每个公司收据看起来都不一样的问题。

最近我不得不使用 tesseract 处理类似的情况,除了 OCR 工具本身,我没有使用任何 ML-approach 因为就像你说的那样,它不可扩展。

我不认为分类器会带来回报,除非你有大量不同的布局,然后你必须决定如何为每个布局提取数据...

这在很大程度上取决于您需要提取的数据类型,但是使用您的示例,如果您必须从所有不同的布局中提取总成本,您可以从每张收据中提取尽可能多的数字,并根据一些因素对它们进行评分,例如:

  1. 如果是费用($或其他货币符号)
  2. 与一些常见关键字的距离,例如 "Total, Final, Sum, etc"
  3. 如果它是该收据的最高价值
  4. 您可能会想到的其他因素,这完全取决于您需要提取的数据

然后您可以使用每张收据得分最高的个人费用计算最终总费用