将 grobid 与 tika 和 solr 集成
Integrating grobid with tika and solr
我正在使用 Solr 为期刊文章编制索引。使用 out-of-the-box 配置,它索引了文档的文本,但我希望使用 Grobid 提取作者、标题、从属关系等。我得到了 grobid 和 运行 作为服务.
我加了
<str name="tika.config">/path/to/tika-config.xml</str>
到 solrconfig.xml
中 /update/extract 的请求处理程序
tika-config 看起来像:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
当我尝试导入文档时遇到 ClassNotFound 异常,但无法弄清楚在哪里设置类路径来修复它。
我正在使用 Solr 为期刊文章编制索引。使用 out-of-the-box 配置,它索引了文档的文本,但我希望使用 Grobid 提取作者、标题、从属关系等。我得到了 grobid 和 运行 作为服务.
我加了
<str name="tika.config">/path/to/tika-config.xml</str>
到 solrconfig.xml
中 /update/extract 的请求处理程序tika-config 看起来像:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
当我尝试导入文档时遇到 ClassNotFound 异常,但无法弄清楚在哪里设置类路径来修复它。