tesseract-ocr 输出是否有字符或文件大小限制?

Is there a character or file size limit for tesseract-ocr output?

我正在使用 raspberry pi 3B 和 python 对使用 raspberry pi 相机拍摄的图像进行图像处理。这是原始图像:https://drive.google.com/open?id=0Bxm5MQBqJ3WvMHB2VmdZdDByaXM

这是旋转和裁剪后的图像,作为 tesseract 的输入: https://drive.google.com/open?id=0Bxm5MQBqJ3WvVU5hM2t6aFZ5RUE

在运行 tesseract-ocr 之后,它以合理的准确度识别了大约 2/3 的图像,但完全遗漏了最后一部分。这是由于文件大小限制还是其他原因?

这是 运行 tesseract 之后的文字:

Instmrnentntlun 是用于测量仪器的统称 表明。测量和记录物理量。

仪器一词可能指的是直接在 读取温度计或。当使用许多传感器时,可能 {mvmm 复杂的工业控制系统,如制造业中的“1 ry, a”。 和运输。 lnstrutnentation 可以在 househo 中找到作为 w .

例如烟雾探测器或加热恒温器。

在某些情况下,传感器是机制中非常小的元素。数字的 相机和手表在技术上可能符合宽泛的定义 仪器,因为它们记录 and/or 显示感测信息。在下面 大多数情况下都不会被称为仪器,但在使用时 测量比赛的经过时间并在终点线记录获胜者, 两者都将被称为仪器。

家庭

仪表系统的一个非常简单的例子是

机械恒温器,用于控制家用火炉,从而控制 室内温度。典型的装置使用双金属条感应温度。它 通过条带自由端的针显示温度。它激活 通过 mercury 开关。当开关被条带旋转时,mercury 在电极之间进行物理(以及电气)接触。

仪器系统的另一个例子是家庭安全系统。这样的 系统由传感器(运动检测、开关检测门 开口)、检测入侵的简单算法、本地控制(arm/disarm)和

远程监控系统,以便报警。 沟通是设计的固有部分。

汽车

如果有这样的限制,你的形象肯定是差远了。我认为剩下的文字太歪斜了。尝试手动校正剩余文本 - 并保持图像的其余部分不变。

虽然 tesseract 即使在更高的倾斜角度下也能正常工作,但每个段落(在您的示例中)倾斜不同的事实可能会导致它遗漏最后一个。