有没有办法使用 Apache Tika 从文档文件中获取所有样式？

Is there a way to get all styles from a doc file with Apache Tika?

java
doc
apache-tika

我正在使用 POI 解析 .doc 文件，当文本修饰发挥作用时，它让我想到了 Apache Tika。我现在可以提取带有 <i></i> 等简单文本装饰的文本，但是，我希望能够处理更复杂的样式。我的文档包含不同的字体大小、下标、上标等。有没有办法用 Tika 获取所有这些信息？如果没有，谁能给我指点一个更合适的工具来使用？

正如您所见，Tika 目前只处理和。根据文档的复杂性，您可能会考虑直接使用 POI（也许可以使用 Tika 的解析器作为示例）。您也可以在 tika 开发列表 (dev@tika.apache.org) 上询问是否有兴趣将其他格式化功能添加到 Tika 中，或者在我们的 Jira site.

上开一张票

有没有办法使用 Apache Tika 从文档文件中获取所有样式？

Is there a way to get all styles from a doc file with Apache Tika?

java

doc

apache-tika