使用 solr 6.4.1 配置 Tesseract

Configure Tesseract with solr 6.4.1

如何使用 solr 6.4.1 配置 Tika OCR。 我为包括 PDF、图像和 MS office 文档在内的文档建立了索引,但出现了问题 Tika 没有从图像中提取文本,也没有从 PDF 和 MS office 文档中的图像中提取文本。为此,我研究了使用 Tika OCR。 为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 solr 核心配置它们。

您不需要做任何特别的事情。只需为您的发行版获取 Tesseract OCR 设置并 install 它在系统上。确保您的 PATH 变量具有 Tesseract 主目录的条目,并且 TESSDATA_PREFIX 变量已设置并指向 Tesseract 主目录。重新启动 Solr,一切顺利。当您通过 /update/extract 处理程序将文档推送到索引时,您应该能够看到 OCR 组件。

默认情况下,Tesseract 仅附带英文模型。从 here.

获取其他语言的模型