免费包含 OCR 基准测试集的资源
Resources containing OCR benchmark test-sets for free
我想为扫描的文本(通常是任何扫描件,即 A4)做一个 OCR 基准测试。我能够找到一些 NEOCR 数据集 here,但 NEOCR 并不是我真正想要的。
我希望能链接到免费数据库的来源,这些来源具有适当的图像和引用的实际文本(包含在图像中)。
我希望这个帖子对其他为数据集进行 OCR 浏览的人也有用,因为我没有找到对此类来源的任何好的参考。
谢谢!
我在许多项目中使用大学研究数据集时运气不错。这些通常很有用,因为需要发布输入和预期结果以独立重现研究结果。一个例子是下面详细讨论的 Fourth Annual Test of OCR Accuracy 的 UNLV 数据集。
另一种方法是从数据集开始并创建您自己的训练集。与 Project Gutenberg 一起工作可能也是值得的,它已经 运行 抄写了 57,136 本书。您可以使用 HTML 版本(带图像)并使用各种 t运行 格式(如字体、旋转等)将其打印出来。然后您可以转换图像并扫描它们以与文本进行比较版本。请参阅下面的示例。
1) OCR精度DOE和UNLV年度测试
UNLV 的能源部 (DOE) 和信息科学研究所 (ISRI) 运行 OCR 测试从 1992 年到 1995 年为期 5 年。您可以在此处找到每年的研究说明:
1.1) UNLV Tesseract OCR 测试数据发表于第四届 OCR 准确性年度测试
使用Tesseract的第四次年度测试的数据已在线发布。由于这是一项 OCR 研究,它可能适合您的目的。
此数据现在作为发布在 Google 代码:
上的 UNLV OCR 评估工具项目的 ISRI 的一部分托管
Images and Ground Truth text and zone files for several thousand English and some Spanish pages that were used in the UNLV/ISRI annual tests of OCR accuracy between 1992 and 1996.
Source code of OCR evaluation tools used in the UNLV/ISRI annual tests of OCR Accuracy.
Publications of the Information Science Research Institute of UNLV applicable to OCR and text retrieval.
您可以在此处找到有关此数据集的信息:
- 说明:https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract
- 数据集:https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads
在数据集 link 中,您会发现许多可以下载的 gzip 压缩包。在每个 tarball 中都有许多目录和一组文件。每个文件有3个文件:
.tif
二进制图像文件
.txt
文本文件
.uzn
用于描述扫描图像的区域文件
注意:发帖时,我注意到这个数据集最初是在上面@Stef 的评论中发布的。
2) 古腾堡计划
Project Gutenberg 已 运行 编写了 57,136 本以下格式的免费电子书:
- HTML
- EPUB(带图片)
- EPUB(无图像)
- Kindle(带图片)
- Kindle(无图像)
- 纯文本 UTF-8
这里有一个例子:http://www.gutenberg.org/ebooks/766
您可以通过执行以下操作来创建测试数据集:
创建测试文件:
- 从 HTML、ePub、Kindle 或纯文本版本开始
- 渲染和 t运行sform 使用不同的字体、旋转、背景颜色、有无图像等
- 将渲染转换为所需的格式,例如TIFF、PDF 等
测试:
- 运行 通过 OCR 系统生成图像
- 与原始纯文本版本比较
可可数据集:
https://vision.cornell.edu/se3/coco-text-2/
Char74K 数据集:
http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
COCO 数据集是图像的基准数据集。世界上最艰难的比赛是使用 COCO 数据集安排的。它可以用于对象检测、图像字幕、OCR。
我想为扫描的文本(通常是任何扫描件,即 A4)做一个 OCR 基准测试。我能够找到一些 NEOCR 数据集 here,但 NEOCR 并不是我真正想要的。
我希望能链接到免费数据库的来源,这些来源具有适当的图像和引用的实际文本(包含在图像中)。
我希望这个帖子对其他为数据集进行 OCR 浏览的人也有用,因为我没有找到对此类来源的任何好的参考。
谢谢!
我在许多项目中使用大学研究数据集时运气不错。这些通常很有用,因为需要发布输入和预期结果以独立重现研究结果。一个例子是下面详细讨论的 Fourth Annual Test of OCR Accuracy 的 UNLV 数据集。
另一种方法是从数据集开始并创建您自己的训练集。与 Project Gutenberg 一起工作可能也是值得的,它已经 运行 抄写了 57,136 本书。您可以使用 HTML 版本(带图像)并使用各种 t运行 格式(如字体、旋转等)将其打印出来。然后您可以转换图像并扫描它们以与文本进行比较版本。请参阅下面的示例。
1) OCR精度DOE和UNLV年度测试
UNLV 的能源部 (DOE) 和信息科学研究所 (ISRI) 运行 OCR 测试从 1992 年到 1995 年为期 5 年。您可以在此处找到每年的研究说明:
1.1) UNLV Tesseract OCR 测试数据发表于第四届 OCR 准确性年度测试
使用Tesseract的第四次年度测试的数据已在线发布。由于这是一项 OCR 研究,它可能适合您的目的。
此数据现在作为发布在 Google 代码:
上的 UNLV OCR 评估工具项目的 ISRI 的一部分托管Images and Ground Truth text and zone files for several thousand English and some Spanish pages that were used in the UNLV/ISRI annual tests of OCR accuracy between 1992 and 1996.
Source code of OCR evaluation tools used in the UNLV/ISRI annual tests of OCR Accuracy.
Publications of the Information Science Research Institute of UNLV applicable to OCR and text retrieval.
您可以在此处找到有关此数据集的信息:
- 说明:https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract
- 数据集:https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads
在数据集 link 中,您会发现许多可以下载的 gzip 压缩包。在每个 tarball 中都有许多目录和一组文件。每个文件有3个文件:
.tif
二进制图像文件.txt
文本文件.uzn
用于描述扫描图像的区域文件
注意:发帖时,我注意到这个数据集最初是在上面@Stef 的评论中发布的。
2) 古腾堡计划
Project Gutenberg 已 运行 编写了 57,136 本以下格式的免费电子书:
- HTML
- EPUB(带图片)
- EPUB(无图像)
- Kindle(带图片)
- Kindle(无图像)
- 纯文本 UTF-8
这里有一个例子:http://www.gutenberg.org/ebooks/766
您可以通过执行以下操作来创建测试数据集:
创建测试文件:
- 从 HTML、ePub、Kindle 或纯文本版本开始
- 渲染和 t运行sform 使用不同的字体、旋转、背景颜色、有无图像等
- 将渲染转换为所需的格式,例如TIFF、PDF 等
测试:
- 运行 通过 OCR 系统生成图像
- 与原始纯文本版本比较
可可数据集: https://vision.cornell.edu/se3/coco-text-2/
Char74K 数据集: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
COCO 数据集是图像的基准数据集。世界上最艰难的比赛是使用 COCO 数据集安排的。它可以用于对象检测、图像字幕、OCR。