使用 solr 6.4.1 配置 Tesseract

Configure Tesseract with solr 6.4.1

solr
sunspot-solr
apache-tika
solr4

如何使用 solr 6.4.1 配置 Tika OCR。我为包括 PDF、图像和 MS office 文档在内的文档建立了索引，但出现了问题 Tika 没有从图像中提取文本，也没有从 PDF 和 MS office 文档中的图像中提取文本。为此，我研究了使用 Tika OCR。为此，我正在安装 tika-app-1.7.jar 和 Tesseract，但我不知道如何使用我的 solr 核心配置它们。

您不需要做任何特别的事情。只需为您的发行版获取 Tesseract OCR 设置并 install 它在系统上。确保您的 PATH 变量具有 Tesseract 主目录的条目，并且 TESSDATA_PREFIX 变量已设置并指向 Tesseract 主目录。重新启动 Solr，一切顺利。当您通过 /update/extract 处理程序将文档推送到索引时，您应该能够看到 OCR 组件。

默认情况下，Tesseract 仅附带英文模型。从 here.

获取其他语言的模型

使用 solr 6.4.1 配置 Tesseract

Configure Tesseract with solr 6.4.1

solr

sunspot-solr

apache-tika

solr4