Ephesoft无法学习或提取某些tif图像(不是所有图像)

Ephesoft can't learn or extract certain tif image (not all image)

我正在使用带有 tif 图像的 Ephesoft 社区版 4.0.2.0(由 ephesoft 测试)问题是 ephesoft 可以从某些图像中分类或提取数据,但他不能从其他图像中分类或提取数据,文件日志中没有错误消息,我现在不知道为什么。

当我点击学习文件时,HOCR 和 HTML 生成的文件是空的,没有数据只有这样的元数据:

Application_Checklist_HOCR.xml :

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>

但对于 US-invoice_HOCR.xml ephesoft 可以学习,文件如下所示:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>

<Value>lnvoice</Value><Coordinates>............

可以在/Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-‌ reader.properties修改tesseract配置文件,注释掉这一行#tesseract.command_parameters=-psm 4让tesseract使用默认分割。