使用 opencv 从扫描文档中提取明信片?
Extract postcards from a scanned document using opencv?
我有 1000 多张旧明信片想要扫描,我认为使用某种自动 crop/rotate 工具优化我的工作流程可能是个好主意,所以我开始使用 Python.
下面是我可以使用扫描仪获取的图片示例:
如您所想,我的目标是根据这张图片创建 3 张图片,每张包含一张明信片。我尝试了很多 opencv 选项,到目前为止我能得到的最好的代码是:
import cv2, sys, imutils
cv2.namedWindow('image', cv2.WINDOW_NORMAL)
image = cv2.imread("sample1600.jpg")
ratio = image.shape[0] / 300.0
image = imutils.resize(image, height = 800)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
ret, th = cv2.threshold(gray,220,235,1)
edged = cv2.Canny(th, 25, 200)
(cnts, _) = cv2.findContours(edged.copy(), cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)[:5]
for c in cnts:
peri = cv2.arcLength(c, True)
approx = cv2.approxPolyDP(c, 0.05 * peri, True)
if len(approx) == 4:
cv2.drawContours(image, [approx], -1, (0, 255, 0), 3)
cv2.imshow("Image", image)
cv2.waitKey(0)
生成的图像是:
此代码的问题在于:
- 没有找到离边框太近的底部图像;
- 它只适用于我的测试图像,但似乎不是很通用。例如,"ret, th = cv2.threshold(gray,220,235,1)" 行将阻止在我认为具有不同直方图的图像上工作。
有没有人知道让这段代码更好地工作并且更通用以满足我处理扫描图像的要求的最佳方法?
编辑:我最初没有提到但可能有用的是,单个明信片的宽度和高度之间的比例应该大约为√2。情况并非总是如此,但如果我的脚本能够有效地处理这种类型的明信片,我会非常高兴(它们占我的 99% 以上collection)
编辑 24/04:感谢@Riccardo,我现在有了一个适用于我的第一个示例图像的脚本,因此添加一个新脚本以尝试找到更强大的解决方案:
编辑 24/04 #2:由于@Riccardo 非常有效地为前两个样本提供了解决方案,这里还有另外两个样本似乎有点复杂,因为 space 之间的有限第一张图片:
或某些部分几乎是空白的卡片:
我建议通过轮廓的旋转边界框的计算而不是尝试识别固定形状。
在我的尝试中,脚本识别了一个类似盒子的图形并计算了它的contourArea,然后它选择了面积大的图形。
这应该可以解决您的问题,如果不能,请告诉我们。
cv2.namedWindow('image', cv2.WINDOW_NORMAL)
image = cv2.imread("sample1600.jpg")
ratio = image.shape[0] / 300.0
image = imutils.resize(image, height = 800)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
ret, th = cv2.threshold(gray,220,235,1)
edged = cv2.Canny(th, 25, 200)
im2, cnts, hierarchy = cv2.findContours(edged.copy(), cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)
for c in cnts:
box = cv2.minAreaRect(c)
box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box)
box = np.array(box, dtype="int")
if cv2.contourArea(box) > 70000:
cv2.drawContours(image, [box], -1, (0, 255, 0), 2)
cv2.imshow("Image", image)
cv2.waitKey(0)
这是输出:
编辑:
我不知道这是否是正确的解决方案,可能还有其他一些。我鼓励其他用户分享他们的方法。
@Sylvain,这是对参数进行一些调整的另一种尝试:
- 将阈值降低到 210;
- 删除 canny 函数(它扰乱了一些图像的复杂模式;
图像区域的计算和要返回的轮廓的限制。在此特定示例中,我将轮廓强加为大于图像的 1/10 且小于 2/3。
image = cv2.imread(img)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
ret, th = cv2.threshold(gray,210,235,1)
im2, cnts, hierarchy = cv2.findContours(th.copy(),cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)
for c in cnts:
box = cv2.minAreaRect(c)
box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box)
box = np.array(box, dtype="int")
Area = image.shape[0]*image.shape[1]
if Area/10 < cv2.contourArea(box) < Area*2/3:
cv2.drawContours(image, [box], -1, (0, 255, 0), 2)
cv2.imshow("Image", image)
cv2.waitKey(0)
我有 1000 多张旧明信片想要扫描,我认为使用某种自动 crop/rotate 工具优化我的工作流程可能是个好主意,所以我开始使用 Python.
下面是我可以使用扫描仪获取的图片示例:
如您所想,我的目标是根据这张图片创建 3 张图片,每张包含一张明信片。我尝试了很多 opencv 选项,到目前为止我能得到的最好的代码是:
import cv2, sys, imutils
cv2.namedWindow('image', cv2.WINDOW_NORMAL)
image = cv2.imread("sample1600.jpg")
ratio = image.shape[0] / 300.0
image = imutils.resize(image, height = 800)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
ret, th = cv2.threshold(gray,220,235,1)
edged = cv2.Canny(th, 25, 200)
(cnts, _) = cv2.findContours(edged.copy(), cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)[:5]
for c in cnts:
peri = cv2.arcLength(c, True)
approx = cv2.approxPolyDP(c, 0.05 * peri, True)
if len(approx) == 4:
cv2.drawContours(image, [approx], -1, (0, 255, 0), 3)
cv2.imshow("Image", image)
cv2.waitKey(0)
生成的图像是:
此代码的问题在于:
- 没有找到离边框太近的底部图像;
- 它只适用于我的测试图像,但似乎不是很通用。例如,"ret, th = cv2.threshold(gray,220,235,1)" 行将阻止在我认为具有不同直方图的图像上工作。
有没有人知道让这段代码更好地工作并且更通用以满足我处理扫描图像的要求的最佳方法?
编辑:我最初没有提到但可能有用的是,单个明信片的宽度和高度之间的比例应该大约为√2。情况并非总是如此,但如果我的脚本能够有效地处理这种类型的明信片,我会非常高兴(它们占我的 99% 以上collection)
编辑 24/04:感谢@Riccardo,我现在有了一个适用于我的第一个示例图像的脚本,因此添加一个新脚本以尝试找到更强大的解决方案:
编辑 24/04 #2:由于@Riccardo 非常有效地为前两个样本提供了解决方案,这里还有另外两个样本似乎有点复杂,因为 space 之间的有限第一张图片:
或某些部分几乎是空白的卡片:
我建议通过轮廓的旋转边界框的计算而不是尝试识别固定形状。 在我的尝试中,脚本识别了一个类似盒子的图形并计算了它的contourArea,然后它选择了面积大的图形。
这应该可以解决您的问题,如果不能,请告诉我们。
cv2.namedWindow('image', cv2.WINDOW_NORMAL)
image = cv2.imread("sample1600.jpg")
ratio = image.shape[0] / 300.0
image = imutils.resize(image, height = 800)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
ret, th = cv2.threshold(gray,220,235,1)
edged = cv2.Canny(th, 25, 200)
im2, cnts, hierarchy = cv2.findContours(edged.copy(), cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)
for c in cnts:
box = cv2.minAreaRect(c)
box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box)
box = np.array(box, dtype="int")
if cv2.contourArea(box) > 70000:
cv2.drawContours(image, [box], -1, (0, 255, 0), 2)
cv2.imshow("Image", image)
cv2.waitKey(0)
这是输出:
编辑: 我不知道这是否是正确的解决方案,可能还有其他一些。我鼓励其他用户分享他们的方法。 @Sylvain,这是对参数进行一些调整的另一种尝试:
- 将阈值降低到 210;
- 删除 canny 函数(它扰乱了一些图像的复杂模式;
图像区域的计算和要返回的轮廓的限制。在此特定示例中,我将轮廓强加为大于图像的 1/10 且小于 2/3。
image = cv2.imread(img) gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) gray = cv2.GaussianBlur(gray, (5, 5), 0) ret, th = cv2.threshold(gray,210,235,1) im2, cnts, hierarchy = cv2.findContours(th.copy(),cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE) cnts = sorted(cnts, key = cv2.contourArea, reverse = True) for c in cnts: box = cv2.minAreaRect(c) box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box) box = np.array(box, dtype="int") Area = image.shape[0]*image.shape[1] if Area/10 < cv2.contourArea(box) < Area*2/3: cv2.drawContours(image, [box], -1, (0, 255, 0), 2) cv2.imshow("Image", image) cv2.waitKey(0)