文本行分割

Question

我试图从下图中提取文本行，我尝试了下面的代码，但我只得到一张没有任何数据的图像。在屏蔽图像时，所有线条都被完美屏蔽。下面我附上了蒙版图像、最终输出图像和所需的输出图像。

img = cv.imread('Handwritten_data/Ostu_images/H_1.jpg')

lower = (0, 0, 0)
upper = (0, 120, 150)

# threshold on border color
mask = cv.inRange(img, lower, upper)

# dilate threshold
kernel = cv.getStructuringElement(cv.MORPH_RECT, (250,10))
mask = cv.morphologyEx(mask, cv.MORPH_DILATE, kernel)

# recolor border to white
img[mask==255] = (255,255,255)


# Inverting the mask by
# performing bitwise-not operation
mask_black = cv.bitwise_not(mask)
Mask = cv.bitwise_and(img, img, mask = mask_black)

gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)

# otsu threshold
thresh = cv.threshold(gray, 0, 255, cv.THRESH_OTSU )[1] 

# apply morphology open
kernel = cv.getStructuringElement(cv.MORPH_RECT, (250,10)) 
morph = cv.morphologyEx(thresh, cv.MORPH_OPEN, kernel)


# creating a folder
try: 
    # creating a folder named data
    if not os.path.exists('Image_0'):
        os.makedirs('Image_0')
  
# if not created then raise error
except OSError:
    print ('Error: Creating directory of data')

# find contours and bounding boxes
bboxes = []
bboxes_img = img.copy()
contours = cv.findContours(morph, cv.RETR_EXTERNAL, cv.CHAIN_APPROX_SIMPLE)
contours = contours[0] if len(contours) == 2 else contours[1]
for cntr in contours:
    x,y,w,h = cv.boundingRect(cntr)
    cv.rectangle(bboxes_img, (x, y), (x+w, y+h), (0,0,255), 1)
    bboxes.append((x,y,w,h))

for j in range(len(bboxes)):
    (x,y,w,h) = bboxes[j]
    crop = img[y-10:y+h+10, x-10:x+w+10]
    cv.imwrite(f'Image_0/S_{j}.jpg', crop)

任何解决此问题的建议或帮助。

下面是遮罩图像

最终图像输出

想要的图像输出就像

提前致谢

Answer 1

您提出的文本行分割的想法是正确的。但该方法需要一些调整。

注：

每当您想遮盖图像的一部分时，请确保遮盖区域为白色。因为在寻找轮廓时，算法会寻找白色区域。由于您正在寻找黑色的轮廓，算法错过了它。

以下根据上述思路修改

解法：

img = cv2.imread(image_file)
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
ret, thresh2 = cv2.threshold(img_gray, 150, 255, cv2.THRESH_BINARY_INV)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (150,2))
mask = cv2.morphologyEx(thresh2, cv2.MORPH_DILATE, kernel)

下面是蒙版图片：

bboxes = []
bboxes_img = img.copy()
contours = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
contours = contours[0] if len(contours) == 2 else contours[1]
for cntr in contours:
    x,y,w,h = cv2.boundingRect(cntr)
    cv2.rectangle(bboxes_img, (x, y), (x+w, y+h), (0,0,255), 1)
    bboxes.append((x,y,w,h))

以下是带边界框的最终结果：

您现在可以添加您的代码部分，将每个区域保存为单独的图像文件。您可以尝试修改内核参数并探索不同的形态学操作以获得更好的掩模区域。

希望这能让您走上正轨！

文本行分割

Text line segmentation

python

opencv