如何在图像中的文本区域周围制作边界框? (即使文本倾斜!!)
How to make bounding box around text-areas in an image? (Even if text is skewed!!)
我正在尝试从任何消费品广告的屏幕截图中检测并抓取文本。
我的代码以一定的准确性工作,但无法在倾斜的文本区域周围制作边界框。
最近我尝试了 Google Vision API,它在几乎每个可能的文本区域周围制作了边界框,并非常准确地检测了该区域中的文本。我很好奇我怎样才能达到相同或相似的效果!
我的测试图片:
Google 边界框后的视觉 API:
提前谢谢你:)
您需要检查是否有任何库提供文本坐标,然后您可以在文本周围绘制框。
OCR 库
1) Python pyocr 和 tesseract ocr python
2) 使用 R 语言(从 PDF 中提取文本;进行 OCR;全部在 R 中)
3) Java/Pyspark
中的 Tesseract 库
4) 阿帕奇蒂卡
5) Python - OpenCV - 使用 kNN
的手写数据 OCR
6)您可以通过 OpenCV 和 Python.
执行相同的操作
免费的 OCR 软件
Google 和 HP 的 Tesseract
Google的保留
Microsoft Document Imaging (MODI)(假设我们中的大多数人都有 windows OS)
微软一记
Microsoft Oxford Project API(此 API 在一段时间内免费)
FreeOCR(这又是基于Tesseract引擎)
还有很多,但这些是最好的,如果您正在寻找准确性,Microsoft Document Imaging 做得更好。如果您正在寻找手写文本 ocr 转换,那么 Google 的 Keep 做得更好。
商业产品
Adobe Acrobat Pro(RTF 文件格式给你最好的结果)
俘虏
艾比
Informatica(不确定 Informatica 中的哪个模块)
IBM 数据捕获 (Datacap)(IBM 沃森)
如果准确性只是您的主要限制条件,那么您的服务中有前所未有的数据访问(captricity)之类的东西,它拥有 99% 的准确性,因为它们聚集了资源人员并让他们在不影响安全性的情况下转换手写文本。
有一些开源视觉包能够在嘈杂的背景图像中检测文本,可与 Google 的视觉 API 相媲美。
您可以使用 Zhou 等人称为 EAST(高效准确场景文本检测器)的固定卷积层简单架构。
https://arxiv.org/abs/1704.03155v2
使用Python:
从以下位置下载 Pre-trained 模型: https://www.dropbox.com/s/r2ingd0l3zt8hxs/frozen_east_text_detection.tar.gz?dl=1 。
将模型提取到您的当前文件夹。
您需要 OpenCV >= 3.4.2 才能执行以下命令。
import cv2
import math
net = cv2.dnn.readNet("frozen_east_text_detection.pb") #This is the model we get after extraction
frame = cv2.imread(<image_filename>)
inpWidth = inpHeight = 320 # A default dimension
# Preparing a blob to pass the image through the neural network
# Subtracting mean values used while training the model.
image_blob = cv2.dnn.blobFromImage(frame, 1.0, (inpWidth, inpHeight), (123.68, 116.78, 103.94), True, False)
现在我们必须定义输出层,它会生成检测到的文本的位置值及其置信度分数(通过 Sigmoid 函数)
output_layer = []
output_layer.append("feature_fusion/Conv_7/Sigmoid")
output_layer.append("feature_fusion/concat_3")
最后我们将通过网络进行前向传播以获得所需的输出。
net.setInput(image_blob)
output = net.forward(output_layer)
scores = output[0]
geometry = output[1]
这里我使用了opencv的github页面中定义的解码函数,https://github.com/opencv/opencv/blob/master/samples/dnn/text_detection.py将位置值转换为框坐标。 (第 23 至 75 行)。
对于框检测阈值,我使用了 0.5 的值,对于非最大抑制,我使用了 0.3。您可以尝试不同的值以获得更好的边界框。
confThreshold = 0.5
nmsThreshold = 0.3
[boxes, confidences] = decode(scores, geometry, confThreshold)
indices = cv2.dnn.NMSBoxesRotated(boxes, confidences, confThreshold, nmsThreshold)
最后,将框覆盖在图像中检测到的文本上:
height_ = frame.shape[0]
width_ = frame.shape[1]
rW = width_ / float(inpWidth)
rH = height_ / float(inpHeight)
for i in indices:
# get 4 corners of the rotated rect
vertices = cv2.boxPoints(boxes[i[0]])
# scale the bounding box coordinates based on the respective ratios
for j in range(4):
vertices[j][0] *= rW
vertices[j][1] *= rH
for j in range(4):
p1 = (vertices[j][0], vertices[j][1])
p2 = (vertices[(j + 1) % 4][0], vertices[(j + 1) % 4][1])
cv2.line(frame, p1, p2, (0, 255, 0), 3)
# To save the image:
cv2.imwrite("maggi_boxed.jpg", frame)
我没有尝试过不同的阈值。更改它们肯定会得到更好的结果,并且还会消除将徽标错误分类为文本的情况。
注意:该模型是在英语语料库上训练的,因此不会检测到印地语单词。您还可以阅读概述 bench-marked 所用测试数据集的论文。
我正在尝试从任何消费品广告的屏幕截图中检测并抓取文本。
我的代码以一定的准确性工作,但无法在倾斜的文本区域周围制作边界框。
最近我尝试了 Google Vision API,它在几乎每个可能的文本区域周围制作了边界框,并非常准确地检测了该区域中的文本。我很好奇我怎样才能达到相同或相似的效果!
我的测试图片:
Google 边界框后的视觉 API:
提前谢谢你:)
您需要检查是否有任何库提供文本坐标,然后您可以在文本周围绘制框。 OCR 库
1) Python pyocr 和 tesseract ocr python
2) 使用 R 语言(从 PDF 中提取文本;进行 OCR;全部在 R 中)
3) Java/Pyspark
中的 Tesseract 库4) 阿帕奇蒂卡
5) Python - OpenCV - 使用 kNN
的手写数据 OCR6)您可以通过 OpenCV 和 Python.
执行相同的操作免费的 OCR 软件
Google 和 HP 的 Tesseract Google的保留 Microsoft Document Imaging (MODI)(假设我们中的大多数人都有 windows OS) 微软一记 Microsoft Oxford Project API(此 API 在一段时间内免费) FreeOCR(这又是基于Tesseract引擎) 还有很多,但这些是最好的,如果您正在寻找准确性,Microsoft Document Imaging 做得更好。如果您正在寻找手写文本 ocr 转换,那么 Google 的 Keep 做得更好。
商业产品
Adobe Acrobat Pro(RTF 文件格式给你最好的结果) 俘虏 艾比 Informatica(不确定 Informatica 中的哪个模块) IBM 数据捕获 (Datacap)(IBM 沃森) 如果准确性只是您的主要限制条件,那么您的服务中有前所未有的数据访问(captricity)之类的东西,它拥有 99% 的准确性,因为它们聚集了资源人员并让他们在不影响安全性的情况下转换手写文本。
有一些开源视觉包能够在嘈杂的背景图像中检测文本,可与 Google 的视觉 API 相媲美。
您可以使用 Zhou 等人称为 EAST(高效准确场景文本检测器)的固定卷积层简单架构。 https://arxiv.org/abs/1704.03155v2
使用Python:
从以下位置下载 Pre-trained 模型: https://www.dropbox.com/s/r2ingd0l3zt8hxs/frozen_east_text_detection.tar.gz?dl=1 。 将模型提取到您的当前文件夹。
您需要 OpenCV >= 3.4.2 才能执行以下命令。
import cv2
import math
net = cv2.dnn.readNet("frozen_east_text_detection.pb") #This is the model we get after extraction
frame = cv2.imread(<image_filename>)
inpWidth = inpHeight = 320 # A default dimension
# Preparing a blob to pass the image through the neural network
# Subtracting mean values used while training the model.
image_blob = cv2.dnn.blobFromImage(frame, 1.0, (inpWidth, inpHeight), (123.68, 116.78, 103.94), True, False)
现在我们必须定义输出层,它会生成检测到的文本的位置值及其置信度分数(通过 Sigmoid 函数)
output_layer = []
output_layer.append("feature_fusion/Conv_7/Sigmoid")
output_layer.append("feature_fusion/concat_3")
最后我们将通过网络进行前向传播以获得所需的输出。
net.setInput(image_blob)
output = net.forward(output_layer)
scores = output[0]
geometry = output[1]
这里我使用了opencv的github页面中定义的解码函数,https://github.com/opencv/opencv/blob/master/samples/dnn/text_detection.py将位置值转换为框坐标。 (第 23 至 75 行)。
对于框检测阈值,我使用了 0.5 的值,对于非最大抑制,我使用了 0.3。您可以尝试不同的值以获得更好的边界框。
confThreshold = 0.5
nmsThreshold = 0.3
[boxes, confidences] = decode(scores, geometry, confThreshold)
indices = cv2.dnn.NMSBoxesRotated(boxes, confidences, confThreshold, nmsThreshold)
最后,将框覆盖在图像中检测到的文本上:
height_ = frame.shape[0]
width_ = frame.shape[1]
rW = width_ / float(inpWidth)
rH = height_ / float(inpHeight)
for i in indices:
# get 4 corners of the rotated rect
vertices = cv2.boxPoints(boxes[i[0]])
# scale the bounding box coordinates based on the respective ratios
for j in range(4):
vertices[j][0] *= rW
vertices[j][1] *= rH
for j in range(4):
p1 = (vertices[j][0], vertices[j][1])
p2 = (vertices[(j + 1) % 4][0], vertices[(j + 1) % 4][1])
cv2.line(frame, p1, p2, (0, 255, 0), 3)
# To save the image:
cv2.imwrite("maggi_boxed.jpg", frame)
我没有尝试过不同的阈值。更改它们肯定会得到更好的结果,并且还会消除将徽标错误分类为文本的情况。
注意:该模型是在英语语料库上训练的,因此不会检测到印地语单词。您还可以阅读概述 bench-marked 所用测试数据集的论文。