'raster font'有真字体文件吗?

Is there true type font file for 'raster font'?

我正在使用 Tesseract 对一些屏幕截图进行 OCR。截图中的字符在raster fonts中。但是 Tesseract 需要 True Type Font 文件进行训练。

我可以在 Windows/Fonts 文件夹中找到许多真字体文件。我想知道是否有光栅字体?

"raster fonts" 虽然不是真实的东西:OpenType(其中 truetype 是两种内部编码之一)是真正的字体,符合 highly detailed, authoritative specification,但光栅字体非常多"there is no single spec, you can invent whatever you want, as long as your program knows how to unpack the thing you made"。有一大堆不同的方法来定义 raster/bitmap 字体,它们基本上都是 bitmap image + header that says which letter maps to which x/y/w/h rectangle in the image.

的形式

OCR 不想使用它们,因为位图字体无法缩放:最简单的原因是 "there is no official bitmap font spec",但即使有,如果您尝试将位图字体与 OCR 结果匹配那么整个页面的宽度或高度相对于您的位图字体需要的内容即使相差 1 个像素也会导致根本没有可匹配的文本。 Bbitmap 字体被编码为固定字体大小(通常只有一种,有时不止一种,但仍然严格固定),因此如果扫描的文档不是完全正确的大小,none 的像素将完美重叠,导致 O 和 V 以相同的可靠性匹配 V 和 O 之类的荒谬事情,因为微小的垂直像素偏移会使 V 和 O 与相同数量的错误像素重叠。

另一方面,OpenType 字体使用矢量轮廓,并且可以缩放以与各种极其成功的算法进行最佳匹配。除非您扫描的文档是 "drastically too small" 矢量变换 产生 90-100% 的匹配而没有任何问题。

你想要做的是点击 MyFont.com 的 What The Font! 之类的东西,然后在你的扫描文档中插入一个句子,也许两个,然后让它告诉你哪个字体是最接近的匹配,然后只需将该字体用于您的 OCR 训练。超级有效!