Tika 独立应用程序、元数据和内容与纯文本输出相同

Tika standalone app, metadata and content in the same output as plain text

我找不到从 tika 应用程序获取输出的方法,该输出包含与纯文本相同的文件中的元数据和内容。任何人都知道是否可以完成?

使用该应用程序获取包含元数据和提取文本的文档的唯一方法是将其输出为 XML、HTML 或 JSON 递归 - 如果您需要它是纯文本格式,然后您必须对该文档进行一些 post 处理(JSON 可能是最简单的,使用 jq 或 python json 模块等)。

根据您需要的输出格式,一个简单的替代方法可能是 运行 应用程序两次,将输出附加在一起:

java -jar tika-app-1.14.jar --metadata document.pdf > document.txt
java -jar tika-app-1.14.jar --text document.pdf >> document.txt