如何使用 Apache Tika 从 .wps 文件中提取文本?
How to use Apache Tika to extract text from a .wps file?
我正在使用 Tika 从多种类型的文档中提取文本。
java -jar tika-app-1.10.jar -T [输入文件]
我意识到 Tika-1.10 可以检测到 .wps 文件(java -jar tika-app-1.10.jar -m [.wps] 正在返回元数据)但它无法从 .wps 文件中提取文本(java -jar tika-app-1.10.jar -T [.wps] 文件不返回任何内容)。有没有其他方法可以从 Java 中的 wps 文件中提取文本?
任何帮助是极大的赞赏
谢谢
尝试添加此参数:(对于 Tika 1.2)
--text-main Output plain text content (main content only)
对于 Tika 1.1:
--text Output plain text content
看这里:https://tika.apache.org/1.2/gettingstarted.html
考虑使用 1.8 或 1.9 版本的 apache tika。
从 Tika 1.13 开始,我们没有 wps 文件的解析器。我们确实支持旧的 Works 7.0 电子表格,但不支持 wps。如果您希望我们增加支持,请在我们的 JIRA 上提出问题。 (坦率地说,我不知道这需要多少工作)。
我正在使用 Tika 从多种类型的文档中提取文本。 java -jar tika-app-1.10.jar -T [输入文件] 我意识到 Tika-1.10 可以检测到 .wps 文件(java -jar tika-app-1.10.jar -m [.wps] 正在返回元数据)但它无法从 .wps 文件中提取文本(java -jar tika-app-1.10.jar -T [.wps] 文件不返回任何内容)。有没有其他方法可以从 Java 中的 wps 文件中提取文本? 任何帮助是极大的赞赏 谢谢
尝试添加此参数:(对于 Tika 1.2)
--text-main Output plain text content (main content only)
对于 Tika 1.1:
--text Output plain text content
看这里:https://tika.apache.org/1.2/gettingstarted.html
考虑使用 1.8 或 1.9 版本的 apache tika。
从 Tika 1.13 开始,我们没有 wps 文件的解析器。我们确实支持旧的 Works 7.0 电子表格,但不支持 wps。如果您希望我们增加支持,请在我们的 JIRA 上提出问题。 (坦率地说,我不知道这需要多少工作)。