仅用于解析 Office 文档的 Apache Tika - 构建排除项

Apache Tika for parsing only Office docs - Build exclusions

apache-tika

我想将文件解析为 text/xml。

我真的只需要解析 Microsoft Office 文档（特别是 Microsoft Word）。

我目前在我的应用程序中包含整个 tika-parsers 依赖项。

由于这很重并且包含很多我不需要的东西，如果我只对解析 Office 文档感兴趣，是否有可以安全排除的模块列表？

有一个 Tika version which splits the libraries into modules 基于他们解析的文件类型。

虽然此版本似乎不再更新，但它可以用作您正在解析的文件类型需要哪些模块的指南。

例如，查看 tika-parser-advanced-module 的 pom.xml，您可以看到它依赖于 opennlp-tools，但 tika-parser-office-module 不依赖。因此，如果您只对解析 office 文档感兴趣，则可以排除 opennlp-tools.

此外，查看 ivy:report（对于 Maven，依赖树）会有帮助。

如果有人对此有任何意见，我仍然愿意听取 suggestions/comments。

仅用于解析 Office 文档的 Apache Tika - 构建排除项

Apache Tika for parsing only Office docs - Build exclusions

apache-tika