仅用于解析 Office 文档的 Apache Tika - 构建排除项

Apache Tika for parsing only Office docs - Build exclusions

我想将文件解析为 text/xml。

我真的只需要解析 Microsoft Office 文档(特别是 Microsoft Word)。

我目前在我的应用程序中包含整个 tika-parsers 依赖项。

由于这很重并且包含很多我不需要的东西,如果我只对解析 Office 文档感兴趣,是否有可以安全排除的模块列表?

有一个 Tika version which splits the libraries into modules 基于他们解析的文件类型。

虽然此版本似乎不再更新,但它可以用作您正在解析的文件类型需要哪些模块的指南。

例如,查看 tika-parser-advanced-modulepom.xml,您可以看到它依赖于 opennlp-tools,但 tika-parser-office-module 不依赖。因此,如果您只对解析 office 文档感兴趣,则可以排除 opennlp-tools.

此外,查看 ivy:report(对于 Maven,依赖树)会有帮助。

如果有人对此有任何意见,我仍然愿意听取 suggestions/comments。