免费包含 OCR 基准测试集的资源

Resources containing OCR benchmark test-sets for free

我想为扫描的文本（通常是任何扫描件，即 A4）做一个 OCR 基准测试。我能够找到一些 NEOCR 数据集 here，但 NEOCR 并不是我真正想要的。

我希望能链接到免费数据库的来源，这些来源具有适当的图像和引用的实际文本（包含在图像中）。

我希望这个帖子对其他为数据集进行 OCR 浏览的人也有用，因为我没有找到对此类来源的任何好的参考。

谢谢！

我在许多项目中使用大学研究数据集时运气不错。这些通常很有用，因为需要发布输入和预期结果以独立重现研究结果。一个例子是下面详细讨论的 Fourth Annual Test of OCR Accuracy 的 UNLV 数据集。

另一种方法是从数据集开始并创建您自己的训练集。与 Project Gutenberg 一起工作可能也是值得的，它已经运行抄写了 57,136 本书。您可以使用 HTML 版本（带图像）并使用各种 t运行格式（如字体、旋转等）将其打印出来。然后您可以转换图像并扫描它们以与文本进行比较版本。请参阅下面的示例。

1) OCR精度DOE和UNLV年度测试

UNLV 的能源部 (DOE) 和信息科学研究所 (ISRI) 运行 OCR 测试从 1992 年到 1995 年为期 5 年。您可以在此处找到每年的研究说明：

概览：http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-nevada-las-vegas-unlv

1.1) UNLV Tesseract OCR 测试数据发表于第四届 OCR 准确性年度测试

使用Tesseract的第四次年度测试的数据已在线发布。由于这是一项 OCR 研究，它可能适合您的目的。

此数据现在作为发布在 Google 代码：

上的 UNLV OCR 评估工具项目的 ISRI 的一部分托管

项目：https://code.google.com/archive/p/isri-ocr-evaluation-tools/

Images and Ground Truth text and zone files for several thousand English and some Spanish pages that were used in the UNLV/ISRI annual tests of OCR accuracy between 1992 and 1996.

Source code of OCR evaluation tools used in the UNLV/ISRI annual tests of OCR Accuracy.

Publications of the Information Science Research Institute of UNLV applicable to OCR and text retrieval.

您可以在此处找到有关此数据集的信息：

在数据集 link 中，您会发现许多可以下载的 gzip 压缩包。在每个 tarball 中都有许多目录和一组文件。每个文件有3个文件：

.tif二进制图像文件
.txt 文本文件
.uzn 用于描述扫描图像的区域文件

注意：发帖时，我注意到这个数据集最初是在上面@Stef 的评论中发布的。

2) 古腾堡计划

Project Gutenberg 已运行编写了 57,136 本以下格式的免费电子书：

HTML
EPUB（带图片）
EPUB（无图像）
Kindle（带图片）
Kindle（无图像）
纯文本 UTF-8

这里有一个例子：http://www.gutenberg.org/ebooks/766

您可以通过执行以下操作来创建测试数据集：

创建测试文件：

从 HTML、ePub、Kindle 或纯文本版本开始
渲染和 t运行sform 使用不同的字体、旋转、背景颜色、有无图像等
将渲染转换为所需的格式，例如TIFF、PDF 等

测试：

运行通过 OCR 系统生成图像
与原始纯文本版本比较

可可数据集： https://vision.cornell.edu/se3/coco-text-2/

Char74K 数据集： http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

COCO 数据集是图像的基准数据集。世界上最艰难的比赛是使用 COCO 数据集安排的。它可以用于对象检测、图像字幕、OCR。

免费包含 OCR 基准测试集的资源

Resources containing OCR benchmark test-sets for free

ocr

tesseract

dataset