Ephesoft 学习从 PDF 转换而来的 tiff 文档时出错

Ephesoft error with learning tiff documents that have been converted from PDF

我在 AWS 实例的 windows 服务器 2003 上使用 Ephesoft 社区版。我在 ephesoft 读取某些 tiff 文档时遇到问题。我有大约 100 个不同的 tiff 文件,其中大约 70% 可以工作。这些 tiff 文档最初是我们使用最新版本的 ghostscript 转换并使用 ephesoft 的 imagemagick 清理的 PDF。我们在 ghostscript

中使用以下命令

-dNOPAUSE -r300 -sDEVICE=tiffg4 -dBATCH

我们使用 imagemagick 执行以下命令

-compress group4

当学习其中一个无效的 tiff 文件时,我们在日志文件中收到以下错误

Drop Box Link to Stack Trace

这是我们试图让 ephesoft 学习的 Tiff 文档之一

Drop Box Link to Tiff Document

我可以用 ghostscript、imagemagick 或任何其他软件做些什么来解决这个问题吗?还是我需要以某种方式修改 ephesoft?

我通过进一步研究找到了解决方案。

问题不涉及 Ghostscript 或 Imagmagick。它涉及 Tesseract 和创建 HOCR 文件。当 Tesseract 创建 hocr 文件时,它会将 Texas 的值解析为 Te>。 Ephesoft 的社区版无法处理这样的特殊 xml 字符,因此会抛出错误。

解决方案是设置一个 Tesseract 属性 将 <> 符号列入黑名单,这样 Tesseract 就不会包含这些符号或解析这些符号。我的 PDF 现在似乎可以正常工作,我可以处理它们。