Tika 解析器没有解析所有文件

Question

我有一个 122 页的 pdf 文件。当我使用 Tika（版本 1.17）解析它时，它不会 return returned string.

中的整个文本

我使用以下简单代码获取文本：

    String content = new Tika().parseToString(file);

我用这段代码得到的文本在第 118 页左右结束。也就是说，最后几页被忽略了。

Answer 1

正在提升对答案的评论...

Apache Tika 将默认设置允许解析器生成的最大文本大小，以避免意外淹没用户。在你的情况下，当你真的想要更多时，你似乎达到了那个极限！

作为 Tika facade helper class 的用户，您只需调用 Tika.setMaxStringLength(int) 设置更高的限制，或者 -1 完全禁用限制

如果您直接使用 Tika 解析器 classes，那么您应该为内容处理程序设置更高的写入限制（或 -1），例如 BodyContentHandler(int writeLimit)

Tika parser is not parsing all the file