以编程方式将扫描图像分成单独的图像

Question

为了提高 OCR 质量，我需要预处理我的扫描图像。有时我需要对图片很少的图像进行OCR（页面上的组件并且它们处于不同的角度 - 例如，一次扫描几张纸质文档），例如：

是否可以自动以编程方式将此类图像划分为包含每个逻辑文档的单独图像？例如使用 ImageMagick 之类的工具或其他工具？有没有solutions/technics这样的问题？

Answer 1

在 ImageMagick 6 中，您可以对图像进行足够的模糊处理，使文本重叠并设置阈值，使文本框在白色背景上成为每个大的黑色区域。然后，您可以使用连接组件来查找每个单独的黑色灰色 (0) 区域及其边界框。然后使用边界框值为每个此类区域裁剪原始图像。

输入：

Unix 语法（将模糊调整到刚好足以使文本区域保持纯黑色）：

infile="image.png"
inname=`convert -ping $infile -format "%t" info:`
OLDIFS=$IFS
IFS=$'\n'
arr=(`convert $infile -blur 0x5 -auto-level -threshold 99% -type bilevel +write tmp.png \
-define connected-components:verbose=true \
-connected-components 8 \
null: | tail -n +2 | sed 's/^[ ]*//'`)
num=${#arr[*]}
IFS=$OLDIFS
for ((i=0; i<num; i++)); do
#echo "${arr[$i]}"
color=`echo ${arr[$i]} | cut -d\  -f5`
bbox=`echo ${arr[$i]} | cut -d\  -f2`
echo "color=$color; bbox=$bbox"
if [ "$color" = "gray(0)" ]; then
convert $infile -crop $bbox +repage -fuzz 10% -trim +repage ${inname}_$i.png
fi
done

文本列表：

color=gray(255); bbox=892x1008+0+0
color=gray(0); bbox=337x430+36+13
color=gray(0); bbox=430x337+266+630
color=gray(0); bbox=202x147+506+252

tmp.png 显示模糊和阈值区域：

裁剪图像：

Answer 2

alexanoid wrote: I have added another image with scanning artifacts. Will this approach work on such images also?

不，由于多种原因，它不会很好地工作。您提供的第二张图片比第一张大得多。所以它需要更大的模糊。它是 jpg，里面有人工制品。 JPG 不是一个好的格式，因为 'constant' 区域中的图像并不是真正不变的。模糊会拾取您的伪像，并且需要有不同的阈值才能删除其中的一些伪像。在你的例子中，图像的顶部有一个大小合适的工件，它会作为一个物体被捕捉到。最后，您的模糊和阈值文本区域的边界框即使不接触也会重叠。因此一种作物可能包括来自其他地区的文本。

这是我对图像进行模糊和阈值处理的测试命令：

convert image.jpg -blur 0x50 -auto-level -threshold 95% -type bilevel tmp.png

以编程方式将扫描图像分成单独的图像

Programmatically divide scanned images into separate images

ocr

imagemagick

image-processing

image-preprocessing