仅用于解析 Office 文档的 Apache Tika - 构建排除项
Apache Tika for parsing only Office docs - Build exclusions
我想将文件解析为 text/xml。
我真的只需要解析 Microsoft Office 文档(特别是 Microsoft Word)。
我目前在我的应用程序中包含整个 tika-parsers
依赖项。
由于这很重并且包含很多我不需要的东西,如果我只对解析 Office 文档感兴趣,是否有可以安全排除的模块列表?
有一个 Tika version which splits the libraries into modules 基于他们解析的文件类型。
虽然此版本似乎不再更新,但它可以用作您正在解析的文件类型需要哪些模块的指南。
例如,查看 tika-parser-advanced-module
的 pom.xml
,您可以看到它依赖于 opennlp-tools
,但 tika-parser-office-module
不依赖。因此,如果您只对解析 office 文档感兴趣,则可以排除 opennlp-tools
.
此外,查看 ivy:report
(对于 Maven,依赖树)会有帮助。
如果有人对此有任何意见,我仍然愿意听取 suggestions/comments。
我想将文件解析为 text/xml。
我真的只需要解析 Microsoft Office 文档(特别是 Microsoft Word)。
我目前在我的应用程序中包含整个 tika-parsers
依赖项。
由于这很重并且包含很多我不需要的东西,如果我只对解析 Office 文档感兴趣,是否有可以安全排除的模块列表?
有一个 Tika version which splits the libraries into modules 基于他们解析的文件类型。
虽然此版本似乎不再更新,但它可以用作您正在解析的文件类型需要哪些模块的指南。
例如,查看 tika-parser-advanced-module
的 pom.xml
,您可以看到它依赖于 opennlp-tools
,但 tika-parser-office-module
不依赖。因此,如果您只对解析 office 文档感兴趣,则可以排除 opennlp-tools
.
此外,查看 ivy:report
(对于 Maven,依赖树)会有帮助。
如果有人对此有任何意见,我仍然愿意听取 suggestions/comments。