有没有办法使用 Apache Tika 从文档文件中获取所有样式?

Is there a way to get all styles from a doc file with Apache Tika?

我正在使用 POI 解析 .doc 文件,当文本修饰发挥作用时,它让我想到了 Apache Tika。我现在可以提取带有 <i></i> 等简单文本装饰的文本,但是,我希望能够处理更复杂的样式。我的文档包含不同的字体大小、下标、上标等。有没有办法用 Tika 获取所有这些信息?如果没有,谁能给我指点一个更合适的工具来使用?

正如您所见,Tika 目前只处理 。根据文档的复杂性,您可能会考虑直接使用 POI(也许可以使用 Tika 的解析器作为示例)。您也可以在 tika 开发列表 (dev@tika.apache.org) 上询问是否有兴趣将其他格式化功能添加到 Tika 中,或者在我们的 Jira site.

上开一张票