Tesseract 给出警告信息
Tesseract gives warning message
我正在使用 tess4j(4.3.1 版本)以便我可以将图像文件转换为文本文件以准备索引 Lucene.It 完成它的工作但最后给出警告
Warning: Parameter not found: enable_new_segsearch
这是我的 pom.xml
<dependencies>
<dependency>
<groupId>org.ghost4j</groupId>
<artifactId>ghost4j</artifactId>
<version>1.0.1</version>
</dependency>
<dependency>
<groupId>net.java.dev.jna</groupId>
<artifactId>jna</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.4.0</version>
</dependency>
<dependency>
<groupId>net.sourceforge.lept4j</groupId>
<artifactId>lept4j</artifactId>
<version>1.12.0</version>
</dependency>
</dependencies>
还有我的 java 主要 class:
File imageFile = new File("samples/eurotext.pdf");
ITesseract instance = new Tesseract();
instance.setDatapath("E:\tessdata");
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
使用以下 VM 参数:
-Djna.library.path=${workspace_loc:/ocr-tess4j-example}/dlls/x64
dlls/x64 文件夹的内容:
- gsdll64.dll
- liblept1760.dll
- libtesseract400.dll
我怎样才能摆脱警告信息?
尝试:
instance.setTessVariable("debug_file", "/dev/null");
语言数据不是 correct.Downloaded 来自 [https://github.com/tesseract-ocr/tessdata] 的整个 tessdata。错误消失了。从这里得到的想法
https://pdfc.inetsoftware.de/public/help/tesseract4/p/optical-character-recognition
我正在使用 tess4j(4.3.1 版本)以便我可以将图像文件转换为文本文件以准备索引 Lucene.It 完成它的工作但最后给出警告
Warning: Parameter not found: enable_new_segsearch
这是我的 pom.xml
<dependencies>
<dependency>
<groupId>org.ghost4j</groupId>
<artifactId>ghost4j</artifactId>
<version>1.0.1</version>
</dependency>
<dependency>
<groupId>net.java.dev.jna</groupId>
<artifactId>jna</artifactId>
<version>5.3.1</version>
</dependency>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.4.0</version>
</dependency>
<dependency>
<groupId>net.sourceforge.lept4j</groupId>
<artifactId>lept4j</artifactId>
<version>1.12.0</version>
</dependency>
</dependencies>
还有我的 java 主要 class:
File imageFile = new File("samples/eurotext.pdf");
ITesseract instance = new Tesseract();
instance.setDatapath("E:\tessdata");
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
使用以下 VM 参数:
-Djna.library.path=${workspace_loc:/ocr-tess4j-example}/dlls/x64
dlls/x64 文件夹的内容:
- gsdll64.dll
- liblept1760.dll
- libtesseract400.dll
我怎样才能摆脱警告信息?
尝试:
instance.setTessVariable("debug_file", "/dev/null");
语言数据不是 correct.Downloaded 来自 [https://github.com/tesseract-ocr/tessdata] 的整个 tessdata。错误消失了。从这里得到的想法 https://pdfc.inetsoftware.de/public/help/tesseract4/p/optical-character-recognition