非英语语言的文本识别

Text recognition in non-english language

我已经在印地语中实现了一个文本检测算法，它运行良好，并且已经定位了文本区域。现在我正在寻找将文本区域转换为数字格式，以便 Google 翻译 API 使用。关于如何将其转换为数字格式的任何帮助？（我研究了 SVM、ANN 等）

我会研究 OCR。

Tesseract OCR 引擎（开源）有多种语言可用的语言数据，包括印地语，所以这可能是一个很好的起点。它也可以集成到 OpenCV 中。

如果您只想使用 OpenCV，那么其中一种机器学习方法（KNN、SVM）可能是最好的，您需要自己训练它来识别字符。

几个链接：