OCR tessdata 目录不正确
OCR tessdata directory is incorrect
我一直在关注 this tutorial 以尝试创建 OCR,我已经复制并粘贴了所有必要的代码并按照步骤操作,但是当我 运行 OCRDemo.java:
Error opening data file ./eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
所以我假设问题是 TESSDATA_PREFIX 有错误的目录。目前它是“C:\CodeRepository\OCR\tessdata”,我得到了那个目录,并通过直接进入文件资源管理器并复制和粘贴它来确认该目录。但我不断收到此错误消息。我也尝试过“OCR\tessdata”、“tessdata”,但其中 none 有效。帮忙?
这是我的 pom.xml 代码 TESSDATA_PREFIX:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>OCR</groupId>
<artifactId>OCR</artifactId>
<version>0.0.1-SNAPSHOT</version>
<properties>
<TESSDATA_PREFIX>C:\CodeRepository\OCR\tessdata</TESSDATA_PREFIX>
</properties>
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
</dependencies>
</project>
从给定的 link 来看,它似乎将读者指向了不兼容的语言数据文件。试试 https://github.com/tesseract-ocr/tessdata_fast.
ITesseract instance = new Tesseract();
instance.setDatapath("C:\Users\Tux\Documents\tessdata");
这对我有用,无需设置环境变量。我只是把语言文件放在'tessdata'文件夹
我一直在关注 this tutorial 以尝试创建 OCR,我已经复制并粘贴了所有必要的代码并按照步骤操作,但是当我 运行 OCRDemo.java:
Error opening data file ./eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load any languages!
所以我假设问题是 TESSDATA_PREFIX 有错误的目录。目前它是“C:\CodeRepository\OCR\tessdata”,我得到了那个目录,并通过直接进入文件资源管理器并复制和粘贴它来确认该目录。但我不断收到此错误消息。我也尝试过“OCR\tessdata”、“tessdata”,但其中 none 有效。帮忙?
这是我的 pom.xml 代码 TESSDATA_PREFIX:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>OCR</groupId>
<artifactId>OCR</artifactId>
<version>0.0.1-SNAPSHOT</version>
<properties>
<TESSDATA_PREFIX>C:\CodeRepository\OCR\tessdata</TESSDATA_PREFIX>
</properties>
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
</dependencies>
</project>
从给定的 link 来看,它似乎将读者指向了不兼容的语言数据文件。试试 https://github.com/tesseract-ocr/tessdata_fast.
ITesseract instance = new Tesseract();
instance.setDatapath("C:\Users\Tux\Documents\tessdata");
这对我有用,无需设置环境变量。我只是把语言文件放在'tessdata'文件夹