Tessaract OCR 是否使用神经网络作为其默认训练机制

Does Tessaract OCR uses neural networks as their default training mechanism

抱歉,这可能是个愚蠢的问题。但我对机器学习和 Tessaract OCR 还很陌生。我听说 Tessaract OCR 可以训练。

我需要知道的是 Tessaract OCR 是使用神经网络作为它们的默认训练机制,还是我们必须对其进行显式编程才能使用神经网络?。

抱歉,如果我对这个 "training" 概念的想法有误。但我需要确切知道的是 Tessaract 是否已经在使用 NN,或者如果没有,我如何使用 NN 和 tessaract OCR 来提高识别准确性?

如果有人可以向我推荐一些好的 resources/way 到 refer/try 并开始使用它也会有很大的帮助。

我目前对基本机器学习监督训练概念的了解以及在 Tessaract OCR 中执行基本图像 OCR 操作的知识。

Tessaract 似乎默认使用自适应分类器。查看此内容以获得良好的阅读体验:

https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

似乎有一个名为 "Cube mode" 的选项,它将切换到使用 NN 作为学习系统而不是自适应分类器 (https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube)。有关自适应分类器的更多信息:

http://www.cs.indiana.edu/~rawlins/website/adaptivity/information-helper.html

另外,与学习分类器系统密切相关:

http://en.wikipedia.org/wiki/Learning_classifier_system

此外,您的 "training" 术语非常接近。训练是指你如何教模式识别系统或学习系统它应该对某些输入集做出什么样的反应。然后,它在遇到未知数据时使用相似性来对新数据进行分类。在我看来,机器学习是现存最酷的领域之一(可能有偏见,但无论如何!)继续学习!你是元学习者:学习如何教机器学习!很酷的东西!

是的,从tesseract 4.0开始,它提供了一个新的基于lstm的ocr引擎:https://tesseract-ocr.github.io/tessdoc/NeuralNetsInTesseract4.00