Tesseract 加载语言失败 (Tess4j / Java / Netbeans)

Question

我目前正在开发一个程序，该程序应该使用 OpenCV 和 Tessj4 检测图像中的字母和数字。为此，我从 https://github.com/UB-Mannheim/tesseract/wiki, downloaded the Tess4j API (Version 3.4.8) from http://tess4j.sourceforge.net 下载并安装了 Tesseract（版本 5.0.0 alpha）并将 .jar 文件（tess4j-3.4.8.jar + lib 文件夹中的所有 .jar 文件）添加到我的项目中.

此外，我将 tesseract 目录 (C:/Program Files/Tesseract-OCR) 添加到系统路径中，并添加了 TESSDATA_PREFIX 和值 (C:/Program Files/Tesseract-OCR/tessdata) 到我的环境变量。

但是，当我尝试运行这 4 行简单的代码时，出现以下错误：

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("C:/Program Files/Tesseract-OCR/tessdata");
tesseract.setLanguage("eng");
System.out.println(tesseract.doOCR(new File("screen.png")));

Failed loading language 'eng'
Tesseract couldn't load any languages!
Exception in thread "main" java.lang.Error: Invalid memory access
   at com.sun.jna.Native.invokePointer(Native Method)
   at com.sun.jna.Function.invokePointer(Function.java:470)
   at com.sun.jna.Function.invoke(Function.java:404)
   at com.sun.jna.Function.invoke(Function.java:315)
   at com.sun.jna.Library$Handler.invoke(Library.java:212)
   at com.sun.proxy.$Proxy0.TessBaseAPIGetUTF8Text(Unknown Source)
   at net.sourceforge.tess4j.Tesseract.getOCRText(Unknown Source)
   at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
   at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
   at net.sourceforge.tess4j.Tesseract.doOCR(Unknown Source)
   at app.Main.main(Main.java:41)

但是当我使用控制台运行 tesseract 程序然后读取创建的文件的内容时，一切正常。

Process p = Runtime.getRuntime().exec("cmd /c tesseract screen.png text -l eng");
while(p.isAlive()) 
   Thread.sleep(5);
    
BufferedReader reader = new BufferedReader(new FileReader(new File("text.txt")));
StringBuilder stringBuilder = new StringBuilder();
String line;
    
while((line = reader.readLine()) != null)
   stringBuilder.append(line).append("\n");
    
reader.close();
System.out.println(stringBuilder.toString().trim());

有谁知道如何解决这个问题？
谢谢，Ypselon。

Answer 1

好的，我发现由于某种原因我的语言文件已损坏。
我只是替换了“C:\Program Files\Tesseract-OCR\tessdata”目录中的“eng.traineddata”文件。

现在一切正常。

Tesseract 加载语言失败 (Tess4j / Java / Netbeans)

Tesseract failed loading language (Tess4j / Java / Netbeans)

java

tesseract

tess4j