OCR tessdata 目录不正确

OCR tessdata directory is incorrect

我一直在关注 this tutorial 以尝试创建 OCR,我已经复制并粘贴了所有必要的代码并按照步骤操作,但是当我 运行 OCRDemo.java:

Error opening data file ./eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load any languages!

所以我假设问题是 TESSDATA_PREFIX 有错误的目录。目前它是“C:\CodeRepository\OCR\tessdata”,我得到了那个目录,并通过直接进入文件资源管理器并复制和粘贴它来确认该目录。但我不断收到此错误消息。我也尝试过“OCR\tessdata”、“tessdata”,但其中 none 有效。帮忙?

这是我的 pom.xml 代码 TESSDATA_PREFIX:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">


<modelVersion>4.0.0</modelVersion>
  <groupId>OCR</groupId>
  <artifactId>OCR</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <properties>
    <TESSDATA_PREFIX>C:\CodeRepository\OCR\tessdata</TESSDATA_PREFIX>
  </properties>
  <dependencies>
    <dependency>
        <groupId>net.sourceforge.tess4j</groupId>
        <artifactId>tess4j</artifactId>
        <version>4.3.1</version>
    </dependency>
  </dependencies>
</project>

从给定的 link 来看,它似乎将读者指向了不兼容的语言数据文件。试试 https://github.com/tesseract-ocr/tessdata_fast.

 ITesseract instance = new Tesseract();          
        instance.setDatapath("C:\Users\Tux\Documents\tessdata"); 

这对我有用,无需设置环境变量。我只是把语言文件放在'tessdata'文件夹