Tesseract 不识别阿拉伯字符

Tesseract doesn't recognize Arabic characters

我正在开发一个使用 tesseract api 来识别车牌号码的应用程序,但车牌中有阿拉伯语字符。

有人知道怎么做吗?

您可以使用针对阿拉伯字符的特定 Tesseract 模块:https://linuxac.org/forum/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D9%88%D8%AA%D8%B7%D8%A8%D9%8A%D9%82%D8%A7%D8%AA-%D8%B3%D8%B7%D8%AD-%D8%A7%D9%84%D9%85%D9%83%D8%AA%D8%A8/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D8%A7%D9%84%D8%AA%D8%AD%D8%B1%D9%8A%D8%B1-%D8%A7%D9%84%D9%85%D9%83%D8%AA%D8%A8%D9%8A-%D9%88%D8%A7%D9%84%D9%86%D8%B4%D8%B1-%D8%A7%D9%84%D8%B7%D8%A8%D8%A7%D8%B9%D9%8A/57245-tesseract-%D8%A7%D9%84%D8%A7%D9%86-%D9%8A%D8%AF%D8%B9%D9%85-%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9

在一切之前,您需要传递您的图像进行预处理和裁剪盘子周围的区域。然后直接进行二值化,以获得更好的OCR体验。

Tesseract 无法识别 Tashkeel。但是,对于字符,使用下面的行能够检测到阿拉伯字符和英文文本。另外,请记得选择合适的分页方式。

pytesseract.image_to_string(image,lang='eng+ara')

您可能还需要使用以下命令来查看可以进行的配置以改进它。

tesseract --print-parameters