Apache Jackrabbit JCA 2.7.5 .docx 和 .xlsx 索引

Apache Jackrabbit JCA 2.7.5 .docx and .xlsx indexing

我正在使用 Appache Jackrabbit JCA 2.7.5,问题是文件 .docx 和 .xlsx 没有索引。

我的步骤:

我的配置文件:

除了我调用函数 public List<Fichier> findAllByContains(String path,String motCles) 对 .docx 和 .xslx 文档进行全文搜索时,bean 的所有查询都有效。对 .pdf、.txt、.xml、.xls、.doc 等的全文搜索完美无缺。

参考:http://jackrabbit.510166.n4.nabble.com/Office-2007-documents-not-being-indexed-in-Jackrabbit-2-4-3-td4657380.html

On the same line, I have observed commons-compress-1.5.jar is required by Tika parser in case of OOXML types of documents (i.e. office 2007 documents).

Now, I am able to index & search most of types of documents (office 2007 - docx, pptx, xlsx , office 2003 - doc, ppt, xls, PDF) using below 2 steps:

(1) Updated repository.xml & added Further details can be found at https://issues.apache.org/jira/browse/JCR-3287

(2) Added commons-compress-1.5.jar classpath while running jackrabbit-standalone-2.6.2.jar

解决方案主要针对 jackrabbit-jca-2.7.5.rar!

的 JAR

依赖性存在错误,因此我进行了这些更改:

  • 添加 apache-mime4j-0。6.jar
  • 添加 apache-mime4j-core-0.7.jar
  • 添加 commons-compress-1。5.jar

在 jackrabbit-jca-2.7 中添加这些 JAR。5.rar 在部署之前!

并且 .docx、.xlsx、... 的索引编制成功!

感谢@Ashok Felix