Tesseract 不识别阿拉伯字符

Tesseract doesn't recognize Arabic characters

我正在开发一个使用 tesseract api 来识别车牌号码的应用程序，但车牌中有阿拉伯语字符。

有人知道怎么做吗？

您可以使用针对阿拉伯字符的特定 Tesseract 模块：https://linuxac.org/forum/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D9%88%D8%AA%D8%B7%D8%A8%D9%8A%D9%82%D8%A7%D8%AA-%D8%B3%D8%B7%D8%AD-%D8%A7%D9%84%D9%85%D9%83%D8%AA%D8%A8/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D8%A7%D9%84%D8%AA%D8%AD%D8%B1%D9%8A%D8%B1-%D8%A7%D9%84%D9%85%D9%83%D8%AA%D8%A8%D9%8A-%D9%88%D8%A7%D9%84%D9%86%D8%B4%D8%B1-%D8%A7%D9%84%D8%B7%D8%A8%D8%A7%D8%B9%D9%8A/57245-tesseract-%D8%A7%D9%84%D8%A7%D9%86-%D9%8A%D8%AF%D8%B9%D9%85-%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9

在一切之前，您需要传递您的图像进行预处理和裁剪盘子周围的区域。然后直接进行二值化，以获得更好的OCR体验。

Tesseract 无法识别 Tashkeel。但是，对于字符，使用下面的行能够检测到阿拉伯字符和英文文本。另外，请记得选择合适的分页方式。

pytesseract.image_to_string(image,lang='eng+ara')

您可能还需要使用以下命令来查看可以进行的配置以改进它。

tesseract --print-parameters