检测文本图像是否颠倒
Detect if a text image is upside down
我有数百张图片(扫描文档),其中大部分都是歪斜的。我想使用 Python.
来消除倾斜
这是我使用的代码:
import numpy as np
import cv2
from skimage.transform import radon
filename = 'path_to_filename'
# Load file, converting to grayscale
img = cv2.imread(filename)
I = cv2.cvtColor(img, COLOR_BGR2GRAY)
h, w = I.shape
# If the resolution is high, resize the image to reduce processing time.
if (w > 640):
I = cv2.resize(I, (640, int((h / w) * 640)))
I = I - np.mean(I) # Demean; make the brightness extend above and below zero
# Do the radon transform
sinogram = radon(I)
# Find the RMS value of each row and find "busiest" rotation,
# where the transform is lined up perfectly with the alternating dark
# text and white lines
r = np.array([np.sqrt(np.mean(np.abs(line) ** 2)) for line in sinogram.transpose()])
rotation = np.argmax(r)
print('Rotation: {:.2f} degrees'.format(90 - rotation))
# Rotate and save with the original resolution
M = cv2.getRotationMatrix2D((w/2,h/2),90 - rotation,1)
dst = cv2.warpAffine(img,M,(w,h))
cv2.imwrite('rotated.jpg', dst)
此代码适用于大多数文档,但某些角度除外:(180 度和 0 度) 和 (90 度和 270 度) 通常被检测为相同的角度(即它在 (180 度和 0 度之间没有区别) ) 和 (90 和 270))。所以我得到了很多颠倒的文件。
这是一个例子:
我得到的结果图像与输入图像相同。
是否有任何建议可以使用 Opencv 和 Python 来检测图像是否上下颠倒?
PS: 我尝试使用 EXIF 数据检查方向,但没有找到任何解决方案。
编辑:
可以使用 Tesseract(pytesseract for Python)检测方向,但只有当图像包含大量字符时才有可能。
对于任何可能需要这个的人:
import cv2
import pytesseract
print(pytesseract.image_to_osd(cv2.imread(file_name)))
如果文档包含足够的字符,Tesseract 可以检测到方向。但是,当图像的线条很少时,Tesseract 建议的方向角通常是错误的。所以这不可能是 100% 的解决方案。
您可以使用Alyn模块。要安装它:
pip install alyn
然后用它去歪斜图像(取自主页):
from alyn import Deskew
d = Deskew(
input_file='path_to_file',
display_image='preview the image on screen',
output_file='path_for_deskewed image',
r_angle='offest_angle_in_degrees_to_control_orientation')`
d.run()
请注意 Alyn
仅用于校正文本。
假设您已经对图像进行了 运行 角度校正,您可以尝试以下方法来确定它是否被翻转:
- 将校正后的图像投影到 y 轴,这样每条线都会得到一个 'peak'。重要提示:实际上几乎总是有两个子峰!
- 通过与高斯卷积来平滑此投影,以去除精细结构、噪声等。
- 对于每个峰,检查更强的子峰是在顶部还是底部。
- 计算底部有子峰的峰的分数。这是您的标量值,可让您确信图像的方向正确。
步骤 3 中的峰值查找是通过查找高于平均值的部分来完成的。然后通过 argmax 找到子峰。
这里有一张图来说明这个方法;几行你的例子图片
- 蓝色:原始投影
- 橙色:平滑投影
- 水平线:整个图像的平滑投影的平均值。
这是执行此操作的一些代码:
import cv2
import numpy as np
# load image, convert to grayscale, threshold it at 127 and invert.
page = cv2.imread('Page.jpg')
page = cv2.cvtColor(page, cv2.COLOR_BGR2GRAY)
page = cv2.threshold(page, 127, 255, cv2.THRESH_BINARY_INV)[1]
# project the page to the side and smooth it with a gaussian
projection = np.sum(page, 1)
gaussian_filter = np.exp(-(np.arange(-3, 3, 0.1)**2))
gaussian_filter /= np.sum(gaussian_filter)
smooth = np.convolve(projection, gaussian_filter)
# find the pixel values where we expect lines to start and end
mask = smooth > np.average(smooth)
edges = np.convolve(mask, [1, -1])
line_starts = np.where(edges == 1)[0]
line_endings = np.where(edges == -1)[0]
# count lines with peaks on the lower side
lower_peaks = 0
for start, end in zip(line_starts, line_endings):
line = smooth[start:end]
if np.argmax(line) < len(line)/2:
lower_peaks += 1
print(lower_peaks / len(line_starts))
这会为给定图像打印 0.125,因此方向不正确,必须翻转。
请注意,如果图像中存在图像或图像中未按行组织的任何内容(可能是数学或图片),则此方法可能会严重失败。另一个问题是行数太少,导致统计数据不佳。
此外,不同的字体可能会导致不同的分布。您可以在一些图像上尝试此方法,看看该方法是否有效。我没有足够的数据。
Python3/OpenCV4 script 对齐扫描的文档。
旋转文档并对行求和。当文档有0度和180度旋转时,图像中会出现大量黑色像素点:
使用记分法。为每个图像评分,因为它与斑马图案的相似性。得分最高的图像具有正确的旋转。您链接到的图像偏移了 0.5 度。为了便于阅读,我省略了一些功能,完整的代码可以是 found here.
# Rotate the image around in a circle
angle = 0
while angle <= 360:
# Rotate the source image
img = rotate(src, angle)
# Crop the center 1/3rd of the image (roi is filled with text)
h,w = img.shape
buffer = min(h, w) - int(min(h,w)/1.15)
roi = img[int(h/2-buffer):int(h/2+buffer), int(w/2-buffer):int(w/2+buffer)]
# Create background to draw transform on
bg = np.zeros((buffer*2, buffer*2), np.uint8)
# Compute the sums of the rows
row_sums = sum_rows(roi)
# High score --> Zebra stripes
score = np.count_nonzero(row_sums)
scores.append(score)
# Image has best rotation
if score <= min(scores):
# Save the rotatied image
print('found optimal rotation')
best_rotation = img.copy()
k = display_data(roi, row_sums, buffer)
if k == 27: break
# Increment angle and try again
angle += .75
cv2.destroyAllWindows()
如何判断文件是否倒置?填充从文档顶部到图像中第一个非黑色像素的区域。测量黄色区域。面积最小的图像将是正面朝上的图像:
# Find the area from the top of page to top of image
_, bg = area_to_top_of_text(best_rotation.copy())
right_side_up = sum(sum(bg))
# Flip image and try again
best_rotation_flipped = rotate(best_rotation, 180)
_, bg = area_to_top_of_text(best_rotation_flipped.copy())
upside_down = sum(sum(bg))
# Check which area is larger
if right_side_up < upside_down: aligned_image = best_rotation
else: aligned_image = best_rotation_flipped
# Save aligned image
cv2.imwrite('/home/stephen/Desktop/best_rotation.png', 255-aligned_image)
cv2.destroyAllWindows()
我有数百张图片(扫描文档),其中大部分都是歪斜的。我想使用 Python.
来消除倾斜
这是我使用的代码:
import numpy as np
import cv2
from skimage.transform import radon
filename = 'path_to_filename'
# Load file, converting to grayscale
img = cv2.imread(filename)
I = cv2.cvtColor(img, COLOR_BGR2GRAY)
h, w = I.shape
# If the resolution is high, resize the image to reduce processing time.
if (w > 640):
I = cv2.resize(I, (640, int((h / w) * 640)))
I = I - np.mean(I) # Demean; make the brightness extend above and below zero
# Do the radon transform
sinogram = radon(I)
# Find the RMS value of each row and find "busiest" rotation,
# where the transform is lined up perfectly with the alternating dark
# text and white lines
r = np.array([np.sqrt(np.mean(np.abs(line) ** 2)) for line in sinogram.transpose()])
rotation = np.argmax(r)
print('Rotation: {:.2f} degrees'.format(90 - rotation))
# Rotate and save with the original resolution
M = cv2.getRotationMatrix2D((w/2,h/2),90 - rotation,1)
dst = cv2.warpAffine(img,M,(w,h))
cv2.imwrite('rotated.jpg', dst)
此代码适用于大多数文档,但某些角度除外:(180 度和 0 度) 和 (90 度和 270 度) 通常被检测为相同的角度(即它在 (180 度和 0 度之间没有区别) ) 和 (90 和 270))。所以我得到了很多颠倒的文件。
这是一个例子:
我得到的结果图像与输入图像相同。
是否有任何建议可以使用 Opencv 和 Python 来检测图像是否上下颠倒?
PS: 我尝试使用 EXIF 数据检查方向,但没有找到任何解决方案。
编辑:
可以使用 Tesseract(pytesseract for Python)检测方向,但只有当图像包含大量字符时才有可能。
对于任何可能需要这个的人:
import cv2
import pytesseract
print(pytesseract.image_to_osd(cv2.imread(file_name)))
如果文档包含足够的字符,Tesseract 可以检测到方向。但是,当图像的线条很少时,Tesseract 建议的方向角通常是错误的。所以这不可能是 100% 的解决方案。
您可以使用Alyn模块。要安装它:
pip install alyn
然后用它去歪斜图像(取自主页):
from alyn import Deskew
d = Deskew(
input_file='path_to_file',
display_image='preview the image on screen',
output_file='path_for_deskewed image',
r_angle='offest_angle_in_degrees_to_control_orientation')`
d.run()
请注意 Alyn
仅用于校正文本。
假设您已经对图像进行了 运行 角度校正,您可以尝试以下方法来确定它是否被翻转:
- 将校正后的图像投影到 y 轴,这样每条线都会得到一个 'peak'。重要提示:实际上几乎总是有两个子峰!
- 通过与高斯卷积来平滑此投影,以去除精细结构、噪声等。
- 对于每个峰,检查更强的子峰是在顶部还是底部。
- 计算底部有子峰的峰的分数。这是您的标量值,可让您确信图像的方向正确。
步骤 3 中的峰值查找是通过查找高于平均值的部分来完成的。然后通过 argmax 找到子峰。
这里有一张图来说明这个方法;几行你的例子图片
- 蓝色:原始投影
- 橙色:平滑投影
- 水平线:整个图像的平滑投影的平均值。
这是执行此操作的一些代码:
import cv2
import numpy as np
# load image, convert to grayscale, threshold it at 127 and invert.
page = cv2.imread('Page.jpg')
page = cv2.cvtColor(page, cv2.COLOR_BGR2GRAY)
page = cv2.threshold(page, 127, 255, cv2.THRESH_BINARY_INV)[1]
# project the page to the side and smooth it with a gaussian
projection = np.sum(page, 1)
gaussian_filter = np.exp(-(np.arange(-3, 3, 0.1)**2))
gaussian_filter /= np.sum(gaussian_filter)
smooth = np.convolve(projection, gaussian_filter)
# find the pixel values where we expect lines to start and end
mask = smooth > np.average(smooth)
edges = np.convolve(mask, [1, -1])
line_starts = np.where(edges == 1)[0]
line_endings = np.where(edges == -1)[0]
# count lines with peaks on the lower side
lower_peaks = 0
for start, end in zip(line_starts, line_endings):
line = smooth[start:end]
if np.argmax(line) < len(line)/2:
lower_peaks += 1
print(lower_peaks / len(line_starts))
这会为给定图像打印 0.125,因此方向不正确,必须翻转。
请注意,如果图像中存在图像或图像中未按行组织的任何内容(可能是数学或图片),则此方法可能会严重失败。另一个问题是行数太少,导致统计数据不佳。
此外,不同的字体可能会导致不同的分布。您可以在一些图像上尝试此方法,看看该方法是否有效。我没有足够的数据。
Python3/OpenCV4 script 对齐扫描的文档。
旋转文档并对行求和。当文档有0度和180度旋转时,图像中会出现大量黑色像素点:
使用记分法。为每个图像评分,因为它与斑马图案的相似性。得分最高的图像具有正确的旋转。您链接到的图像偏移了 0.5 度。为了便于阅读,我省略了一些功能,完整的代码可以是 found here.
# Rotate the image around in a circle
angle = 0
while angle <= 360:
# Rotate the source image
img = rotate(src, angle)
# Crop the center 1/3rd of the image (roi is filled with text)
h,w = img.shape
buffer = min(h, w) - int(min(h,w)/1.15)
roi = img[int(h/2-buffer):int(h/2+buffer), int(w/2-buffer):int(w/2+buffer)]
# Create background to draw transform on
bg = np.zeros((buffer*2, buffer*2), np.uint8)
# Compute the sums of the rows
row_sums = sum_rows(roi)
# High score --> Zebra stripes
score = np.count_nonzero(row_sums)
scores.append(score)
# Image has best rotation
if score <= min(scores):
# Save the rotatied image
print('found optimal rotation')
best_rotation = img.copy()
k = display_data(roi, row_sums, buffer)
if k == 27: break
# Increment angle and try again
angle += .75
cv2.destroyAllWindows()
如何判断文件是否倒置?填充从文档顶部到图像中第一个非黑色像素的区域。测量黄色区域。面积最小的图像将是正面朝上的图像:
# Find the area from the top of page to top of image
_, bg = area_to_top_of_text(best_rotation.copy())
right_side_up = sum(sum(bg))
# Flip image and try again
best_rotation_flipped = rotate(best_rotation, 180)
_, bg = area_to_top_of_text(best_rotation_flipped.copy())
upside_down = sum(sum(bg))
# Check which area is larger
if right_side_up < upside_down: aligned_image = best_rotation
else: aligned_image = best_rotation_flipped
# Save aligned image
cv2.imwrite('/home/stephen/Desktop/best_rotation.png', 255-aligned_image)
cv2.destroyAllWindows()