使用 solr 6.4.1 配置 Tesseract
Configure Tesseract with solr 6.4.1
如何使用 solr 6.4.1 配置 Tika OCR。
我为包括 PDF、图像和 MS office 文档在内的文档建立了索引,但出现了问题 Tika 没有从图像中提取文本,也没有从 PDF 和 MS office 文档中的图像中提取文本。为此,我研究了使用 Tika OCR。
为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 solr 核心配置它们。
如何使用 solr 6.4.1 配置 Tika OCR。 我为包括 PDF、图像和 MS office 文档在内的文档建立了索引,但出现了问题 Tika 没有从图像中提取文本,也没有从 PDF 和 MS office 文档中的图像中提取文本。为此,我研究了使用 Tika OCR。 为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 solr 核心配置它们。