降低图片中的噪声以使用 tesseract 启用 OCR
Lower noise in picture to enable OCR with tesseract
我正在尝试对此类图像进行 OCR:
不幸的是,由于字符周围有噪声点,tesseract 无法检索数字。
我尝试使用 ImageMagick 来提高图像质量,但没有成功。
示例:
convert input.tif -level 0%,150% output.tif
convert input.tif -colorspace CMYK -separate output_%d.tif
有什么方法可以高效的检索出这种图片中的字符吗?
非常感谢。
简单closing operation(膨胀后腐蚀)会给你想要的输出。下面是相同的 Python 实现。
img = cv2.imread(r'D:\Image\noiseOCR.png',0)
kernel = np.ones((3,3),np.uint8)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
图中的数字是最大的连通分量。所以另一种方法是进行连通分量分析。
我正在尝试对此类图像进行 OCR:
不幸的是,由于字符周围有噪声点,tesseract 无法检索数字。
我尝试使用 ImageMagick 来提高图像质量,但没有成功。
示例:
convert input.tif -level 0%,150% output.tif
convert input.tif -colorspace CMYK -separate output_%d.tif
有什么方法可以高效的检索出这种图片中的字符吗?
非常感谢。
简单closing operation(膨胀后腐蚀)会给你想要的输出。下面是相同的 Python 实现。
img = cv2.imread(r'D:\Image\noiseOCR.png',0)
kernel = np.ones((3,3),np.uint8)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
图中的数字是最大的连通分量。所以另一种方法是进行连通分量分析。