如何从包含各种嘈杂文本和数字的图像中提取文本?
How to extract text from an image with a variety of noisy texts and numbers?
我这里有一张图片:
我需要从中间为“0005053”的图像中提取仪表读数。
我试过pytesseract如下:
import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open("Screen_Shot_2564-08-25_at_11.23.13.png"))
print(text)
我得到的输出是' \n\x0c'
。
我发现的另一项服务是 AWS Textract,它非常准确,但我无法在 python 中找到实现该服务的解决方法。任何潜在客户都将不胜感激。
知道如何解决这个问题吗?
谢谢
如果您想走 textract 路线,您可以使用 boto3 轻松实现它。
你也可以试试用AWS Rekognition做同样的任务,看看是不是更accurate/cheaper
我这里有一张图片:
我需要从中间为“0005053”的图像中提取仪表读数。
我试过pytesseract如下:
import pytesseract
from PIL import Image
text = pytesseract.image_to_string(Image.open("Screen_Shot_2564-08-25_at_11.23.13.png"))
print(text)
我得到的输出是' \n\x0c'
。
我发现的另一项服务是 AWS Textract,它非常准确,但我无法在 python 中找到实现该服务的解决方法。任何潜在客户都将不胜感激。
知道如何解决这个问题吗?
谢谢
如果您想走 textract 路线,您可以使用 boto3 轻松实现它。 你也可以试试用AWS Rekognition做同样的任务,看看是不是更accurate/cheaper