针对具有不同格式的文档查找一个特定信息的最佳 OCR 方法

Best OCR approach on documents with different formats to find one specific information

很遗憾，由于涉及机密资料，我无法给出更具体的解释。

问题

所以我有一些文档通常包含相同的信息，但格式不同。在大多数情况下，我要查找的值靠近文档中的关键字。 OCR 本身由 Google Cloud Vision API 处理，但处理不同格式的最佳方法是什么？

我的想法

... 是训练一个分类器来检测我正在处理的格式，然后选择合适的方法来找到目标值，我事先手动实现了。这既不方便也不可扩展。所以我正在寻找一些算法，例如目标值在哪里，它看起来像什么等等

解决此问题的最佳 ML 方法是什么，或者您有什么想法？

作为数据类型的示例： 假设我有来自 20 家不同超市的收据，我正在寻找总成本，其中每个公司收据看起来都不一样的问题。

最近我不得不使用 tesseract 处理类似的情况，除了 OCR 工具本身，我没有使用任何 ML-approach 因为就像你说的那样，它不可扩展。

我不认为分类器会带来回报，除非你有大量不同的布局，然后你必须决定如何为每个布局提取数据...

这在很大程度上取决于您需要提取的数据类型，但是使用您的示例，如果您必须从所有不同的布局中提取总成本，您可以从每张收据中提取尽可能多的数字，并根据一些因素对它们进行评分，例如：

如果是费用（$或其他货币符号）
与一些常见关键字的距离，例如 "Total, Final, Sum, etc"
如果它是该收据的最高价值
您可能会想到的其他因素，这完全取决于您需要提取的数据

然后您可以使用每张收据得分最高的个人费用计算最终总费用