Apache Tika:在 tika-server 上为 opennlp 模型设置类路径

Apache Tika : Settting classpath for opennlp models on tika-server

我似乎无法为 tika-server 设置 class 路径,以便正确检测到 opennlp 模型。

我已按照此处的说明进行操作:

https://wiki.apache.org/tika/TikaAndNER

(用 app 代替 -server,看起来它包含了所需的一切)

我创建了以下文件夹结构

tika
`-- tika-ner-resources
    `-- org
        `-- apache
           `-- tika
              `-- parser
                  `-- ner
                    `-- opennlp
                       |-- ner-location.bin
                       |-- ner-organization.bin
                       `-- ner-person.bin

运行:

java -classpath tika/tika-ner-resources -jar tika-server-1.18.jar --config /etc/tika-config.xml - enableUnsecureFeatures -h 0.0.0.0

并发布 {{ curl -v -XPUT --data-binary @test.pdf http://localhost:9998/tika --header "Accept: text/plain" --header "Content-Type: application/pdf"}}

结果

INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 的实例 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-location.bin 中找到模型 信息位置 NER:可提供服务?错误的 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-organization.bin 中找到模型 INFO ORGANIZATION NER:可以提供服务吗?错误的 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-date.bin 中找到模型 信息日期 NER:可以提供服务吗?错误的 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-money.bin 中找到模型 INFO MONEY NER:可以提供服务吗?错误的 警告无法使用 class 加载器从 org/apache/tika/parser/ner/opennlp/ner-person.bin 中找到模型 信息人员:可以提供服务吗?错误的 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-percentage.bin 中找到模型 INFO PERCENT NER:可以维修吗?错误的 警告无法使用 class 加载程序从 org/apache/tika/parser/ner/opennlp/ner-time.bin 中找到模型 INFO TIME NER:可提供服务?错误的 INFO org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 可用吗?错误的 INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.regex.RegexNERecogniser 的实例 信息 org.apache.tika.parser.ner.regex.RegexNERecogniser 可用吗?错误的 INFO 链 0

中的 NERecognisers 数量

唯一似乎有效的方法是通过添加 tika/tika-ner-resources 目录(即 org/blah/blah/*.bin)的内容重新打包 jar。然后 curl 命令可以毫无问题地执行。我还尝试了设置 classpath 的几乎所有组合。

有没有人有什么想法?

对于其他有问题的人,通过删除 -jar 并手动指定 TikaServerCli,以下命令对我有用 class

java -classpath tika/tika-ner-resources/:tika-server-1.18.jar  
org.apache.tika.server.TikaServerCli --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0